Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM
Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы с человеческим интеллектом. Отсюда мы получаем целый пласт заблуждений. Например, что модели нас «чувствуют», «понимают», ведь мы выкладываем для них столько информации о себе, начиная от стилистики нашего письма, что уже является неким цифровым отпечатком нашей личности, и заканчивая оценкой их собственной работы. На самом деле это миф. И трендом 2023–2024 годов стало обширное внимание публики к XAI:
• как они (генеративные модели) устроены и как они принимают решения;
• как проводятся атаки уклонения (склонение моделей к неверной выдаче);
• как эти атаки (уклонения) связаны с другими атаками на LLM и какие они могут быть для эскалации деструктивного поведения системы;
• с какой позиции верно интерпретировать выход генеративной модели;
• разработка системы эшелонированной защиты моделей;
• разработка системы внутреннего критика для модели.
Для начала начнём с существующих атак и их анализа. Заинтересованных приглашаем под кат.
Читать далееИсточник: Хабрахабр
Похожие новости
- Мерчандайзинг в интерфейсах: Как ваши привычки стали врагом номер один
- Pragmata взломали за два дня до релиза. Шесть слоёв защиты Denuvo и как их обходят через гипервизор
- Страшно, когда не видно: взгляд внутрь домена
- Безопасность умных устройств изнутри: от Secure Boot и TrustZone до отчётов внешних исследователей
- Реклама в Max уже работает: установки приложения в 7 раз дешевле, чем в Telegram
- bitkogan: Может ли экономика выжить без малых и средних компаний?
- Неизменяемая архитектура. Практическая проверка кодом. Аутентификация
- Spark_news: Рейтинг компаний, которые закрывали магазины в России к 2026 году
- Охота на CVE в Cursor IDE: полный технический разбор безопасности AI-редактора
- GooD_News: Huawei выходит на рынок AI-очков