Jailbreak » b.Z - Записки о гаджетах, людях и музыке

17 января 2026 0 38

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention,...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность AI Security Prompt Injection Jailbreak Transformer RLHF Red Teaming Alignment Tokenization Mechanistic Interpretability

27 ноября 2025 0 67

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

Всем привет! Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные выводы исследования StrongReject. Джейлбрейкнуть...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность AI security AI safety Benchmark Jailbreak LLM StrongREJECT Strong REJECT