Исследование уязвимостей LLM-агентов: опыт Red Teaming

Все блоги / Про интернет 30 марта 2025 135

Привет, Хабр!

Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные механизмы и ограничения LLM.

Большие языковые модели (LLM) сейчас активно применяются для создания AI‑ассистентов и специализированных агентов, отвечающих на запросы и совершающих операции в различных средах (финансовые транзакции, консультирование, управление ресурсами и др.). Вместе с развитием применения растут и риски, связанные с их уязвимостями. Злоумышленники могут использовать специальные атакующие промпты (adversarial prompts), чтобы добиться от модели нежелательных или запрещённых ответов. Методическое выявление таких уязвимостей через Red Teaming позволяет понять, как можно обойти системные инструкции моделей и разработать меры защиты.

В рамках учебного курса «Безопасность ИИ» (так сложилось, что я магистрант AI Talent Hub ИТМО) я провел исследование уязвимостей LLM‑агентов в формате соревнования Red Teaming (на одной из популярных арен, по правилам арены не буду уточнять название). Цель заключалась в том, чтобы различными способами «взломать» защитные механизмы агента и заставить его выполнять нежелательные действия или раскрывать служебную информацию.

Всего в первой волне конкурса было предложено 9 сценариев атак; мне удалось успешно решить все, осуществив в общей сложности 53 успешных джейлбрейка (по разным языковым моделям) — то есть случаев обхода встроенных ограничений. Решил поделиться с Хабром опытом и подробно рассмотреть применённые техники атаки на агентов. Сами модели в рамках арены не раскрываются, но по косвенным признакам можно было понять, что там был и ChatGPT и Claude.

Я классифицировал их по трём группам: приёмы социальной инженерии, обходы фильтров и цензуры и эксплуатация уязвимостей в поведении агентов. Для каждой группы приведены конкретные примеры запросов и ответов модели. В конце статьи хочу обсудить полученные результаты и предложить рекомендации по защите LLM от подобных атак.

Источник: Хабрахабр

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Похожие публикации

Редакция Spark.ru: Как составить семантическое ядро сайта

Сбор семантического ядра — один из базовых этапов продвижения проекта. Чтобы улучшить видимость ресурса, нужно проанализировать поисковые запросы определенной тематики и отобрать оптимальные ключевые слова. Правильно составленное семантическое ядро дает возможность лучше понять потенциального

подробнее »

19 марта 2021

Ю-эксперт: Вкусный и здоровый гайд по юзабилити-тестированиям

В этой статье мы подробно рассказываем о том, как проводить удаленное модерируемое юзабилити-тестирование на наглядном примере Расскажу вам историю о том, как непродуманный интерфейс помешал мне сделать покупку. Однажды знакомый посоветовал почитать книгу Робертса «Шантарам», он так ярко и красочно

подробнее »

12 марта 2021

Как ЕС собирается регулировать Google и Facebook, и зачем ему это нужно

Оригинальная статья Лео Мирани (Leo Mirani) для Quartz. Перевод — Interweb Pro. *** Ошибаются те, кто думал, что комиссар Евросоюза по цифровой экономике и обществу Гюнтер Эттингер блефовал, когда недавно сказал (статья за пейволом - Roem.ru), что ЕС может обуздать крупные интернет-компании, такие

подробнее »

5 мая 2015

Бакунов, «Яндекс»: Нужно прекращать думать о далеком будущем и пару лет подумать о том, как улучшать настоящее

23 декабря директор по распространению технологий Яндекса Григорий Бакунов представил тренды на ближайшие 2 года на конференции Feedback в #tceh. Roem.ru публикует расшифровку полностью. Фото: #tceh Григорий: Маленькое интро — такую презентацию я делаю последние 4-5 лет, до этого я делал её в

подробнее »

24 декабря 2015

SendPulse: Раскрутка Youtube канала для новичков — полный гайд

Продвижение YouTube канала — целый комплекс мероприятий по оптимизации и раскрутке бренда на видеохостинге и за его пределами. В этой статье мы подробно разберем, как подготовить и оформить канал, правильно добавлять видео и какими способами можно раскрутить канал на Ютуб. Почему бизнес выбирает

подробнее »

19 мая 2021

Сергей Марин: Большие данные в рекламе и медиа. Что умеют технологии и как это работает

Большие данные давно стали неотъемлемой частью маркетинга, но они до сих пор окружены мифами. Может ли внедрение big data поднять продажи или компаниям лучше полагаться на свои коммерческие отделы, действительно ли сегодня маркетологи знают о своих потребителях все и заменит ли рекламистов и

подробнее »

4 мая 2020