GigaChat vs Opus в агентском аудите файрвола: попытка сравнения
Взяли один агент, один навык и одну выгрузку правил Ideco NGFW – и прогнали её через GigaChat Max и Claude Opus 4.8. Рассказываем, что из этого получилось, почему «настоящего» агентского теста не вышло и сколько всё это стоило в токенах и рублях.
Зачем мы это затеяли
В прошлой статье – «Пещера Аладдина для безопасника» – мы показывали, как автономный агент Hermes с открытой библиотекой Agent Skills разбирает IPS-логи и проводит аудит правил межсетевого экрана Ideco NGFW. Тогда мы сравнивали бесплатную фронтир-модель и платную Claude Opus и сделали осторожный вывод: для первичного triage хватает дешёвой модели, а для глубокого расследования лучше брать сильную.
Тот эксперимент оставил открытым один очевидный вопрос. Все «сильные» модели в нём были западными. А что покажет российская LLM на той же задаче?
Вопрос не праздный. Если вы – банк, госкомпания или объект КИИ, отправлять выгрузку правил вашего боевого файрвола в облако Anthropic – это в лучшем случае разговор с юристами, в худшем – прямое нарушение. GigaChat от Сбера работает в российском контуре, и если он справляется с аудитом конфигураций на приемлемом уровне, это меняет картину для целого класса заказчиков.
Поэтому мы взяли один и тот же агент (Hermes), один и тот же навык аудита и одинаковые входные данные – и подставили под него две модели: GigaChat Max и Claude Opus 4.8 (задумку с тестированием Claude Fable 5 для этой же задачи реализовать не удалось, со всеми нашими ИБ-скиллами он работать отказался, даже когда был доступен).
Читать далееИсточник: Хабрахабр
Похожие новости
- Цифровой фронтир: Почему малому бизнесу пора вспомнить опыт Napster
- gost-curl — консольный HTTP-клиент с поддержкой ГОСТ TLS 1.3
- Я год не писал код руками. Но я не вайбкодер — и это две разные профессии
- Треоко. Космос: Космическая викторина - на старт!
- Карты, деньги, облака
- Искусство Инфобеза, часть 2: NGFW, базовый минимум
- Как незаметная indirect-зависимость в Go дописала ручку в ваш HTTP-сервер
- Spark_news: Т-Банк и Colizeum запускают первый в России кэшбэк игровым временем и другие активности для геймеров
- Как научить ИИ-ассистента писать тесты и моделировать угрозы безопасности в процессе кодинга
- Аналитики: начинающие предприниматели чаще выбирают онлайн-торговлю