Взлом LLM-агентов на уровне архитектуры: почему они беззащитны перед структурными инъекциями

Индустрия стремительно переходит от простых чат-ботов к автономным LLM-агентам. Мы даем нейросетям доступ к браузерам, терминалам, базам данных и API (например, через фреймворки вроде AutoGen или OpenHands). Но вместе с делегированием задач возникает критическая проблема: как убедиться, что агент...

Все блоги / Про интернет

Читаем вместе. ИИ в AppSec: могут ли LLM работать с уязвимым кодом

Привет, Хабр! На связи Максим Митрофанов, ML-лид команды Application Security в Positive Technologies. Мы занимаемся прикладными вопросами машинного обучения по направлению безопасной разработки, регулярно изучаем новые технические репорты и доменные статьи, разбором одной из которых я и хотел бы...

Все блоги / Про интернет

Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI-агентов. В этой статье расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на современные модели, в т.ч. те, которые и ломать не надо. Сравним стойкость разных...

Все блоги / Про интернет

Можно ли получить «опасный» ответ от GPT-4 и как защищаться от Token Smuggling

Мы продолжаем рассказывать вам о уязвимостях LLM. На этот раз давайте поговорим о авторегрессионных моделях и “Token Smuggling”, а также посмотрим, сможет ли GPT-4 выдать нам ответы на опасные вопросы. Узнать больше...

Все блоги / Про интернет