Как измерить LLM для задач кибербеза: обзор открытых бенчмарков
Привет, Хабр!
Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому делюсь тем, что собрал сам.
Первое, что бросилось в глаза, — полный бардак и отсутствие системы. Бенчи, про которые все пишут в 2024-м, могут вообще не упоминаться в свежих статьях 2025-го. А некоторые широко цитируемые датасеты при ближайшем рассмотрении оказываются сделанными очень небрежно, из-за чего непонятно, что они вообще измеряют. Поэтому, прежде чем лезть в конкретные примеры, давайте определимся, какими они бывают.
Читать далееИсточник: Хабрахабр
Похожие новости
- OSINT для ленивых. Часть 8: GEOINT по фото за 3 минуты
- MarketingNews: Кейс: «Призы от всего атомного сердца». как «Пятёрочка» создала фиджитал-вселенную с Atomic Heart и переосмыслила механику промоакций
- Как я собрал себе C2 на малинке за один вечер
- Краткая история биометрии: как была изобретена идентификация по радужке глаза
- Мыслепреступление на Android: как скрыть Перехватчик трафика от Государственных приложений
- Хак сортировки новостей по цифровому коду (Плагин для DLE 13-19.1)
- Путаница в уязвимостях WSUS: ставим все на свои места
- Хостеры против VPN: что на самом деле скрывают поправки “Антифрод 2.0”
- Как я чуть не потерял свои скрипты из-за того, что РКН и Telegram не поделили IP-адреса
- Sber X-TI: разбираем бесплатную платформу кибербезопасности от Сбера