HiveTraceRed vs garak: тестируем безопасность языковых моделей на русском и английском
Наша команда сравнила два открытых инструмента для проверки языковых моделей (LLM) на устойчивость к атакам: российский HiveTraceRed от HiveTrace/ITMO и международный garak от NVIDIA. Прогнали обоих на одинаковых задачах против двух открытых моделей (qwen2.5:3b и llama3.2:3b) на английском и русском языках.
Главное:
На английском работают оба, плюс-минус одинаково. HiveTraceRed нашёл 11 кандидатов в обходы (Jailbreak, это обход встроенных защитных ограничений модели через специальный запрос. Например, если модель отказывается писать фишинговое письмо в лоб, jailbreak это формулировка, после которой она его всё-таки пишет) на 380 попыток, у garak вышло 2 на 174. После ручной проверки всех 20 кандидатов от обоих инструментов 12 оказались настоящими jailbreak’ами, 2 пограничными, 6 ложными срабатываниями.
Persuasion-атаки (FootInTheDoor + Framing, добраны отдельно): добавляют ещё 11 случаев утечки методологии на 40 попыток (модель обсуждает тему «академически», но без полностью actionable инструкций). Лучше всего срабатывает FramingAttack на qwen-RU (3/5).
На русском garak бесполезен: ноль найденных кандидатов на обеих моделях из 80 попыток. У HiveTraceRed 7 кандидатов на 380 попыток.
Если вам нужно тестировать LLM, обслуживающую русскоязычных пользователей (а это любой российский продукт, от GigaChat до банковского чат-бота на YandexGPT), используйте HiveTraceRed.
Дальше расскажем, почему так получилось, что именно нашли и как воспроизвести у себя.
Читать далееИсточник: Хабрахабр
Похожие новости
- В фокусе RVD: трендовые уязвимости апреля
- Чебурнет близко
- Giftery: Старый друг лучше новых двух: почему в 2026 году работодатели возвращаются к найму 50+
- Веб-интегратор “Компот”: Смерть стандартного ТЗ и брифа: главная ошибка в запуске сайтов
- VK: VK запускает цифровые проекты к 9 мая: онлайн-шествие «Бессмертного полка», виртуальное возложение цветов, спецпроекты и музыкальные премьеры
- Spark_news: В России предложили согласовывать с ФСБ обучение ИИ на госданных
- Skolkovo: Участник Сколково запускает пилотные проекты в Нигерии
- Писать или не писать… свой мессенджер — вот в чем вопрос
- [Перевод] Баги, которые не ловит Rust
- [Перевод] 44 CVE в uutils: что Rust ловит, а что нет на границе с системой