Исследование уязвимостей LLM-агентов: опыт Red Teaming
Привет, Хабр!
Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные механизмы и ограничения LLM.
Большие языковые модели (LLM) сейчас активно применяются для создания AI‑ассистентов и специализированных агентов, отвечающих на запросы и совершающих операции в различных средах (финансовые транзакции, консультирование, управление ресурсами и др.). Вместе с развитием применения растут и риски, связанные с их уязвимостями. Злоумышленники могут использовать специальные атакующие промпты (adversarial prompts), чтобы добиться от модели нежелательных или запрещённых ответов. Методическое выявление таких уязвимостей через Red Teaming позволяет понять, как можно обойти системные инструкции моделей и разработать меры защиты.
В рамках учебного курса «Безопасность ИИ» (так сложилось, что я магистрант AI Talent Hub ИТМО) я провел исследование уязвимостей LLM‑агентов в формате соревнования Red Teaming (на одной из популярных арен, по правилам арены не буду уточнять название). Цель заключалась в том, чтобы различными способами «взломать» защитные механизмы агента и заставить его выполнять нежелательные действия или раскрывать служебную информацию.
Всего в первой волне конкурса было предложено 9 сценариев атак; мне удалось успешно решить все, осуществив в общей сложности 53 успешных джейлбрейка (по разным языковым моделям) — то есть случаев обхода встроенных ограничений. Решил поделиться с Хабром опытом и подробно рассмотреть применённые техники атаки на агентов. Сами модели в рамках арены не раскрываются, но по косвенным признакам можно было понять, что там был и ChatGPT и Claude.
Я классифицировал их по трём группам: приёмы социальной инженерии, обходы фильтров и цензуры и эксплуатация уязвимостей в поведении агентов. Для каждой группы приведены конкретные примеры запросов и ответов модели. В конце статьи хочу обсудить полученные результаты и предложить рекомендации по защите LLM от подобных атак.
Читать далееИсточник: Хабрахабр
Похожие новости
- Безопасность ИИ: как перестать бежать анализировать каждое новое ПО и перейти к системному подходу
- [Перевод] Как Cursor с Claude Opus снёс продакшен базу данных за 9 секунд
- Мерчандайзинг в интерфейсах: Как ваши привычки стали врагом номер один
- Вход по УКЭП в корпоративных системах: практическая архитектура
- Миллион в месяц за блокировки интернета, или чем отличается капитализм от социализма
- Экспертное мнение: Искусство слушания: 10 техник медиации, которые меняют восприятие и поведение в бизнес-конфликте
- Когда расширение делает больше, чем обещает: разбор Page Locker
- Российская инфраструктура стала тихой гаванью для киберпреступников. Причем тут Руцентр, Рег.Ру и DDoS-Guard?
- Pragmata взломали за два дня до релиза. Шесть слоёв защиты Denuvo и как их обходят через гипервизор
- Страшно, когда не видно: взгляд внутрь домена