HiveTraceRed vs garak: тестируем безопасность языковых моделей на русском и английском

Все блоги / Про интернет Сегодня, 10:01 6   

Наша команда сравнила два открытых инструмента для проверки языковых моделей (LLM) на устойчивость к атакам: российский HiveTraceRed от HiveTrace/ITMO и международный garak от NVIDIA. Прогнали обоих на одинаковых задачах против двух открытых моделей (qwen2.5:3b и llama3.2:3b) на английском и русском языках.

Главное:

На английском работают оба, плюс-минус одинаково. HiveTraceRed нашёл 11 кандидатов в обходы (Jailbreak, это обход встроенных защитных ограничений модели через специальный запрос. Например, если модель отказывается писать фишинговое письмо в лоб, jailbreak это формулировка, после которой она его всё-таки пишет) на 380 попыток, у garak вышло 2 на 174. После ручной проверки всех 20 кандидатов от обоих инструментов 12 оказались настоящими jailbreak’ами, 2 пограничными, 6 ложными срабатываниями.

Persuasion-атаки (FootInTheDoor + Framing, добраны отдельно): добавляют ещё 11 случаев утечки методологии на 40 попыток (модель обсуждает тему «академически», но без полностью actionable инструкций). Лучше всего срабатывает FramingAttack на qwen-RU (3/5).

На русском garak бесполезен: ноль найденных кандидатов на обеих моделях из 80 попыток. У HiveTraceRed 7 кандидатов на 380 попыток.

Если вам нужно тестировать LLM, обслуживающую русскоязычных пользователей (а это любой российский продукт, от GigaChat до банковского чат-бота на YandexGPT), используйте HiveTraceRed.

Дальше расскажем, почему так получилось, что именно нашли и как воспроизвести у себя.

Читать далее
  • Оцените публикацию
  • 0

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

Похожие публикации

Архив публикаций