Современные уязвимости современных LLM-агентов

Все блоги / Про интернет 5 мая 2025 79

На первый взгляд, современные ИИ-модели кажутся надёжно защищёнными: строгие ограничения, фильтры и чётко заданные сценарии взаимодействия с пользователем. Однако реальность быстро меняется. Всё чаще исследователи и энтузиасты сталкиваются с атаками, которые позволяют обойти эти защитные меры.

В статье разбираемся, как работают современные методы взлома LLM — от инъекций кода до контекстных атак. Увидим, почему даже небольшие уязвимости могут привести к неконтролируемому поведению модели. Рассмотрим реальные примеры, исследовательские наработки и то, как индустрия реагирует на растущие угрозы в области безопасности генеративных моделей.

Источник: Хабрахабр

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Похожие публикации

Участники «Yota Digital Talks»: Дополнительная реальность уже среди нас, удобна и необходима ли она — большой вопрос

21 августа на базе Института «Стрелка» в Москве прошла открытая дискуссия на тему «Yota Digital Talks: Дополнительная реальность в городе». Участие в мероприятии приняли эксперты по AR (англ. augmented reality — «расширенная реальность»), среди которых — соучредитель и креативный директор

подробнее »

25 августа 2015

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные

подробнее »

30 марта 2025

Бакунов, «Яндекс»: Нужно прекращать думать о далеком будущем и пару лет подумать о том, как улучшать настоящее

23 декабря директор по распространению технологий Яндекса Григорий Бакунов представил тренды на ближайшие 2 года на конференции Feedback в #tceh. Roem.ru публикует расшифровку полностью. Фото: #tceh Григорий: Маленькое интро — такую презентацию я делаю последние 4-5 лет, до этого я делал её в

подробнее »

24 декабря 2015

Иван Макаров, Юлия Сапронова: Как журналистам РБК прививали любовь к диджиталу

Аудиоверсию подкаста можно послушать прямо сейчас на сайте Adindex.ru, на Яндекс.Музыке, в подкастах Apple, на SoundCloud, в сообществе Adindex.ru в VK. Текст отредактирован с целью повышения удобочитаемости. Синодов Ю.: Приветствую, дорогие слушатели. В эфире подкаст "Медиасреда", который делает

подробнее »

3 февраля 2020

Снятся ли андроидам отечественные датацентры?

Сергей Гордейчик с конца прошлого века интересуется разработкой, белошляпным хакерством, развитием технологий и бизнеса. Работал в РЖД, "Лаборатории Касперского", был CTO и замом гендиректора Positive Technologies. Сейчас увлекается AI, живёт в Дубаи, работает в Абу Даби, преподаёт в барселонском

подробнее »

26 сентября 2019

Призовой фонд 600 000 рублей: ведущие компании создадут новые продукты с помощью генеративных сетей

С 4 по 19 августа AI Talent Hub университета ИТМО, AI-компания Napoleon IT и разработчик CDP платформы Konnektu проведут хакатон по созданию новых продуктов с использованием генеративных сетей ChatGPT, Midjourney, elDinero.ai. Участникам предстоит решить кейсы для Unilever в России, Альфа-Банка,

подробнее »

24 июля 2023