Применяем «колдовство» prompt injection против Гендальфа
На днях набрёл на интересный проект Gandalf, построенный как платформа для тренировки Prompt Injection для обходов защитных механизмов поверх ChatGPT в игровой форме.
Задача — выведать пароли, которые придумал Гендальф. Для этого нужно придумывать нестандартные способы выманить секреты с помощью простых и сложных промптов (текстовых запросов к нейросети). Гендальф будет стремиться не допустить утечки своих секретных фраз всеми способами.
Если на первом уровне бот сразу раскроет секретный пароль, то на седьмом (последнем) уровне нужно знатно изощриться, чтобы получить секретную фразу. Похоже, что в качестве защиты используются т.н. препромтны, или директивы для модели, которые препятствуют прямому ответу на вопросы о паролях и смежных тем.
Компания, которая предоставила доступ к Гендальфу, занимается алайном ИИ (alignment for artificial intelligence) и защитой нейросетей от атак иньекций с помощью промптов (prompt injection guard) и, как мне кажется, преследует цель малой кровью собрать датасет эффективных фраз, с помощью которых пользователю смогут обойти уровни защиты от данной атаки.
Читать далееИсточник: Хабрахабр
Похожие новости
- Как я пилотировала Kaspersky NGFW и что из этого вышло
- Нежданные гости: F6 проанализировала первые масштабные атаки группы Kinsing на российские компании
- Миллион IP против одного GPT-5: история одной DDoS-атаки
- Опыт цифровизации службы безопасности банка. Единая IT-экосистема на базе BPMS
- Сервис DashaMail обновил функционал аннотаций в GMail
- Вредные советы по автоматизации
- Кем работать в IT в 2025: сетевой инженер в информационной безопасности
- [Перевод] Как найти исходный IP любого веб-сайта за WAF
- Приоритизация уязвимостей с EPSS в кибербезопасности
- Безопасность приложений: инструменты и практики для Java-разработчиков