Применяем «колдовство» prompt injection против Гендальфа
На днях набрёл на интересный проект Gandalf, построенный как платформа для тренировки Prompt Injection для обходов защитных механизмов поверх ChatGPT в игровой форме.
Задача — выведать пароли, которые придумал Гендальф. Для этого нужно придумывать нестандартные способы выманить секреты с помощью простых и сложных промптов (текстовых запросов к нейросети). Гендальф будет стремиться не допустить утечки своих секретных фраз всеми способами.
Если на первом уровне бот сразу раскроет секретный пароль, то на седьмом (последнем) уровне нужно знатно изощриться, чтобы получить секретную фразу. Похоже, что в качестве защиты используются т.н. препромтны, или директивы для модели, которые препятствуют прямому ответу на вопросы о паролях и смежных тем.
Компания, которая предоставила доступ к Гендальфу, занимается алайном ИИ (alignment for artificial intelligence) и защитой нейросетей от атак иньекций с помощью промптов (prompt injection guard) и, как мне кажется, преследует цель малой кровью собрать датасет эффективных фраз, с помощью которых пользователю смогут обойти уровни защиты от данной атаки.
Читать далееИсточник: Хабрахабр
Похожие новости
- Тактильная эпоха — Часть 2: Складной планшет vs раскладной смартфон. И почему вы не понимаете, чего хотите
- Скрываясь на виду: как PhantomCore маскирует свою активность с помощью легитимных инструментов
- Максим Немов: Почему бизнес-гипотезы почти всегда ошибочны — и как на этом зарабатывают те, кто это понял
- Антипов Александр: Запускаю сервис для автоматической сверки актов. Что оказалось сложнее, чем казалось
- Запущен ещё один бесплатный сервис для проверки текстов на соответствие закону об англицизмах
- Рейтинг Рунета выпустит первый рейтинг компаний, занимающихся продвижением в нейросетях
- SD-WAN + NGFW: почему разрыв между сетью и безопасностью обходится дорого
- Феномен OpenClaw: почему инженерная обвязка стала важнее нейросети
- «А трактор случайно не в залоге?» — история одной интеграции с ФЦИИТ
- Design by Contract в эпоху AI: как контракты Мейера защищают криптографию там, где тесты молчат