Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Все блоги / Про интернет 14 декабря 2024 99   

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ.

Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с текстом, изображениями и аудио.

Суть BoN Jailbreaking — в добавлении искажений во входные данные модели для поиска уязвимостей защиты методом проб и ошибок. Исследователи продемонстрировали высокую эффективность метода на моделях GPT-4, Claude, Gemini и др.

Читать далее
  • Оцените публикацию
  • 0

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

Похожие публикации

Архив публикаций