[Перевод] Дырявая броня ИИ‑фильтров и почему они не станут лучше

Все блоги / Про интернет 31 января 2026 37   

Попробуйте спросить Chat GPT, как собрать бомбу и он угрюмо буркнет: «Я не могу помочь с этим». Однако пользователи уже давно превратили обход ограничений в азартную игру в кошки-мышки. Годится любой обман — лишь бы заставить модель выдать запрещенку.

Сначала способы были простыми, достаточно попросить: «Игнорируй инструкции по безопасности!» Затем в ход пошли сложные ролевые сценарии. Недавно обнаружилась новая лазейка: упаковать промт в стихотворную форму — и готово, ИИшка «поплыла».

Разработчики дыры латают быстро. Им не нужно переучивать модель целиком — достаточно поставить «фильтр» на входе, чтобы отсечь токсичные промпты еще на подлете к «мозгу» нейросети.

Недавно специалисты по ИБ решили проверить эти фильтры на прочность. В статьях на arxiv.org они доказали: защиту вокруг мощных LLM можно обойти классическими инструментами криптографии. Сама архитектура этой системы — «легкий» фильтр, охраняющий «тяжелую» модель — создает фундаментальные уязвимости.

Как же так?!
  • Оцените публикацию
  • 0

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

Похожие публикации

Архив публикаций