Взлом LLM-агентов на уровне архитектуры: почему они беззащитны перед структурными инъекциями
Индустрия стремительно переходит от простых чат-ботов к автономным LLM-агентам. Мы даем нейросетям доступ к браузерам, терминалам, базам данных и API (например, через фреймворки вроде AutoGen или OpenHands). Но вместе с делегированием задач возникает критическая проблема: как убедиться, что агент...
Читаем вместе. ИИ в AppSec: могут ли LLM работать с уязвимым кодом
Привет, Хабр! На связи Максим Митрофанов, ML-лид команды Application Security в Positive Technologies. Мы занимаемся прикладными вопросами машинного обучения по направлению безопасной разработки, регулярно изучаем новые технические репорты и доменные статьи, разбором одной из которых я и хотел бы...
Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом
Продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI-агентов. В этой статье расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на современные модели, в т.ч. те, которые и ломать не надо. Сравним стойкость разных...
Можно ли получить «опасный» ответ от GPT-4 и как защищаться от Token Smuggling
Мы продолжаем рассказывать вам о уязвимостях LLM. На этот раз давайте поговорим о авторегрессионных моделях и “Token Smuggling”, а также посмотрим, сможет ли GPT-4 выдать нам ответы на опасные вопросы. Узнать больше...