InfoFlood: как информационная перегрузка превращается в универсальный джейлбрейк для LLM
В июне этого года на arXiv вышла работа «InfoFlood: Jailbreaking Large Language Models with Information Overload»
В исследовании авторы обнаружили новую уязвимость в системах безопасности больших языковых моделей: когда вредоносный запрос перегружается сложной лингвистической структурой, фильтры безопасности перестают его распознавать, хотя сама модель продолжает понимать суть и выдаёт вредоносный ответ.
В отличие от большинства существующих джейлбрейков, InfoFlood не использует префиксов, суффиксов или шаблонных триггеров. Вместо этого он полностью переписывает запрос, сохраняя его вредоносное намерение, но маскируя его за избыточной информацией, уточнениями и гипотетическими сценариями. Авторы называют это «информационной перегрузкой» (Information Overload).
Читать далееИсточник: Хабрахабр
Похожие новости
- AlinaTen: DeepRoute.ai заявила о более чем 300 тысячах автомобилей с её системой автопилота
- AlinaTen: Суд в США отклонил обвинения Илона Маска в мошенничестве против OpenAI перед началом разбирательства
- О создании в России центральной базы данных идентификаторов пользовательского оборудования (оконечного оборудования)
- Почему у тиранозавра маленькие ручки?
- ONLYAPPS: Как самостоятельно сделать инфографику для маркетплейсов
- MarketingNews: Getblogger добавил возможность размещения рекламы в мессенджере «Макс»
- Блог ленивого инвестора: Итоги недели: рост на ожиданиях, падение на факте
- Это — все что вам надо знать о белых списках: ресерч, сканы, обход
- Краткая история биометрии: как ПЦР-метод изменил идентификацию по ДНК
- Права в Linux: chown/chmod, SELinux context, символьная/восьмеричная нотация, DAC/MAC/RBAC/ABAC