InfoFlood: как информационная перегрузка превращается в универсальный джейлбрейк для LLM

В июне этого года на arXiv вышла работа «InfoFlood: Jailbreaking Large Language Models with Information Overload»
В исследовании авторы обнаружили новую уязвимость в системах безопасности больших языковых моделей: когда вредоносный запрос перегружается сложной лингвистической структурой, фильтры безопасности перестают его распознавать, хотя сама модель продолжает понимать суть и выдаёт вредоносный ответ.
В отличие от большинства существующих джейлбрейков, InfoFlood не использует префиксов, суффиксов или шаблонных триггеров. Вместо этого он полностью переписывает запрос, сохраняя его вредоносное намерение, но маскируя его за избыточной информацией, уточнениями и гипотетическими сценариями. Авторы называют это «информационной перегрузкой» (Information Overload).
Читать далееИсточник: Хабрахабр
💬 Комментарии
В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.
🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.
💡 Хотите обсудить материал?
Присоединяйтесь к нашему Telegram-каналу:
https://t.me/blogssmartzНажмите кнопку ниже — и вы сразу попадёте в чат с комментариями