Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»
Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ.
Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с текстом, изображениями и аудио.
Суть BoN Jailbreaking — в добавлении искажений во входные данные модели для поиска уязвимостей защиты методом проб и ошибок. Исследователи продемонстрировали высокую эффективность метода на моделях GPT-4, Claude, Gemini и др.
Читать далееИсточник: Хабрахабр
Похожие новости
- Независимый fashion-ритейл планирует нарастить присутствие в онлайн-каналах в ближайшие 3 года
- Креативная революция: как ИИ переписывает учебники для дизайнеров
- Мусорные клики: Яндекс может избавить нас от них, но нет
- Российское digital-агентство создало первый новостной канал, полностью сгенерированный ИИ
- ВМК МГУ имени М.В. Ломоносова: Исследователи ВМК МГУ предложили бенчмарк для оценки суперразрешения видео при сжатии
- О май гайд, это же ToV
- С 10 июля 2025 года Telegram Ads отменил обязательный минимальный расход для запуска премиальных рекламных форматов
- Spark_news: 21% россиян испытывают тоску по работе во время отпуска
- AlinaTen: Meta приобрела стартап, специализирующийся на клонировании голосов
- [Перевод] «Призраки в коммитах 2»: пылесосим историю Git в поиске утекших секретов