Яндекс.Полуразврат или при чём тут Crypt?

Яндекс выпустил новую модель для Шедеврума, которая попыталась прикрыть уязвимости, которые эксплуатировались для создания «небезопасного контента» категории 18+. Тем не менее, не всё так радужно и с «детским» режимом они очень торопятся. Некоторые уязвимости в промпте остались, а некоторые...

Все блоги / Про интернет

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...

Все блоги / Про интернет

GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в...

Все блоги / Про интернет

Можно ли решить проблему prompt injection?

Недавно я участвовал в вебинаре, посвящённом атаке prompt injection («инъецирование промта»). Вебинар организовала LangChain, в нём участвовали Виллем Пиенаар, Кодзин Осиба (Robust Intelligence), Джонатан Коэн и Кристофер Парисьен (Nvidia Research), а проводил его Харрисон Чейз. Полную часовую...

Все блоги / Про интернет

Применяем «колдовство» prompt injection против Гендальфа

На днях набрёл на интересный проект Gandalf, построенный как платформа для тренировки Prompt Injection для обходов защитных механизмов поверх ChatGPT в игровой форме. Задача — выведать пароли, которые придумал Гендальф. Для этого нужно придумывать нестандартные способы выманить секреты с помощью...

Все блоги / Про интернет