prompt injection » b.Z - Записки о гаджетах, людях и музыке

10 июля 2025 0 25

Яндекс.Полуразврат или при чём тут Crypt?

Яндекс выпустил новую модель для Шедеврума, которая попыталась прикрыть уязвимости, которые эксплуатировались для создания «небезопасного контента» категории 18+. Тем не менее, не всё так радужно и с «детским» режимом они очень торопятся. Некоторые уязвимости в промпте остались, а некоторые...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность нейросети безопасность prompt injection промпт-инъекции искусственный интеллект ai prompt-engineering промпт-инжиниринг jailbreak взлом

17 мая 2025 0 34

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM prompt injection Pangea jailbreak owasp top 10 llm

29 апреля 2025 0 117

GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность нейросети взлом jailbreak промпт-инжиниринг prompt-engineering ai искусственный интеллект промпт-инъекции prompt injection безопасность

19 мая 2023 0 204

Можно ли решить проблему prompt injection?

Недавно я участвовал в вебинаре, посвящённом атаке prompt injection («инъецирование промта»). Вебинар организовала LangChain, в нём участвовали Виллем Пиенаар, Кодзин Осиба (Robust Intelligence), Джонатан Коэн и Кристофер Парисьен (Nvidia Research), а проводил его Харрисон Чейз. Полную часовую...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Информационная безопасность Искусственный интеллект llm prompt injection чат-боты bing

16 мая 2023 0 220

Применяем «колдовство» prompt injection против Гендальфа

На днях набрёл на интересный проект Gandalf, построенный как платформа для тренировки Prompt Injection для обходов защитных механизмов поверх ChatGPT в игровой форме. Задача — выведать пароли, которые придумал Гендальф. Для этого нужно придумывать нестандартные способы выманить секреты с помощью...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Информационная безопасность Машинное обучение Искусственный интеллект llm ai prompt injection alignment ai chatgpt