Red Teaming » b.Z - Записки о гаджетах, людях и музыке

29 марта 2026 0 39

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections). Но реальность оказалась...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM ИИ-агенты Red Teaming prompt injection Python парсинг хакатон уязвимости ИИ json

17 января 2026 0 38

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention,...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность AI Security Prompt Injection Jailbreak Transformer RLHF Red Teaming Alignment Tokenization Mechanistic Interpretability