Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Все блоги / Про интернет 14 декабря 2024 99

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ.

Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с текстом, изображениями и аудио.

Суть BoN Jailbreaking — в добавлении искажений во входные данные модели для поиска уязвимостей защиты методом проб и ошибок. Исследователи продемонстрировали высокую эффективность метода на моделях GPT-4, Claude, Gemini и др.

Источник: Хабрахабр

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Похожие публикации

Снятся ли андроидам отечественные датацентры?

Сергей Гордейчик с конца прошлого века интересуется разработкой, белошляпным хакерством, развитием технологий и бизнеса. Работал в РЖД, "Лаборатории Касперского", был CTO и замом гендиректора Positive Technologies. Сейчас увлекается AI, живёт в Дубаи, работает в Абу Даби, преподаёт в барселонском

подробнее »

26 сентября 2019

Шифруй то, шифруй это, или LLM под замком

Здравствуйте, уважаемые читатели Хабра. Чем больше я погружаюсь в LLM, тем больше укрепляюсь во мнении, что сейчас они (LLM) заняли если не самое важное, то уж точно одно из очень значимых мест во всём пантеоне моделей машинного обучения. При этом всё чаще встаёт вопрос шифрования моделей в самом

подробнее »

24 сентября 2024

Редакция Spark.ru: Как составить семантическое ядро сайта

Сбор семантического ядра — один из базовых этапов продвижения проекта. Чтобы улучшить видимость ресурса, нужно проанализировать поисковые запросы определенной тематики и отобрать оптимальные ключевые слова. Правильно составленное семантическое ядро дает возможность лучше понять потенциального

подробнее »

19 марта 2021

Хакеры на службе правительства США

Подразделение по взлому компьютерных данных ТАО в составе Агентства национальной безопасности США считается самым мощным секретным оружием этой разведывательной структуры. Оно владеет собственной скрытой сетью, получает данные с компьютеров по всему миру и даже перехватывает посылки с компьютерным

подробнее »

13 января 2014

Стив Альбини о внушающем оптимизм состоянии музыкальной индустрии — полная версия

Оригинал текста: The Guardian. Перевод - бюро переводов Lingoware. Музыкальный продюсер, лидер группы Shellac и автор эпохального эссе "Проблема с музыкой" (The Problem with Music), опубликованного в 1993 году, в своем выступлении на конференции в Мельбурне говорил о преимуществах Интернета,

подробнее »

24 ноября 2014

[Перевод] Анатомия LLM RCE

По мере того, как большие языковые модели (LLM) становятся все более сложными, и разработчики наделяют их новыми возможностями, резко увеличиваются случаи возникновения угрозы безопасности. Манипулируемые LLM представляют собой не только риск нарушения этических стандартов, но и реальную угрозу

подробнее »

3 ноября 2024