Применяем «колдовство» prompt injection против Гендальфа
На днях набрёл на интересный проект Gandalf, построенный как платформа для тренировки Prompt Injection для обходов защитных механизмов поверх ChatGPT в игровой форме.
Задача — выведать пароли, которые придумал Гендальф. Для этого нужно придумывать нестандартные способы выманить секреты с помощью простых и сложных промптов (текстовых запросов к нейросети). Гендальф будет стремиться не допустить утечки своих секретных фраз всеми способами.
Если на первом уровне бот сразу раскроет секретный пароль, то на седьмом (последнем) уровне нужно знатно изощриться, чтобы получить секретную фразу. Похоже, что в качестве защиты используются т.н. препромтны, или директивы для модели, которые препятствуют прямому ответу на вопросы о паролях и смежных тем.
Компания, которая предоставила доступ к Гендальфу, занимается алайном ИИ (alignment for artificial intelligence) и защитой нейросетей от атак иньекций с помощью промптов (prompt injection guard) и, как мне кажется, преследует цель малой кровью собрать датасет эффективных фраз, с помощью которых пользователю смогут обойти уровни защиты от данной атаки.
Читать далееИсточник: Хабрахабр
Похожие новости
- Почему «витрина достижений» информационной безопасности работает далеко не везде
- ИИ Агенты как новая киберугроза: бизнесы теряют деньги и данные, не понимая почему
- Архитектура PERA для построения промышленной сети
- Telegram Web съел 30% моего 16-ядерного процессора. Расследование странного поведения, или Призрак майнера в браузере
- Настройка межсетевого SSH-доступа в многосегментной сети Cisco и MikroTik в среде GNS3
- Рост продаж на маркетплейсах без демпинга: возможен или нет
- Vitamin.tools: Как быстро и эффективно находить сотрудников или собрать пожертвования через VK Ads: два кейса от клиента Vitamin.tools
- Лебедев Денис: Боты статистики в Telegram: что они умеют, кому подходят
- От BlueBorne до LE Secure: как Bluetooth выжил после самых громких дыр
- Ты не покупатель. Ты — герой мифа