Взлом AI Assistant через… философию?
Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?".
Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.
Читать далееИсточник: Хабрахабр
Похожие новости
- Глухарь ESPшный — мемуары охотника
- Когнитивная эргономика в веб-дизайне: Как не отупеть от собственного интерфейса
- Процесс охоты за угрозами
- Прихоть или безопасность: как компаниям использовать биометрию в новых реалиях
- За четыре года доля пользователей облачных сервисов в РФ выросла втрое и достигла 54%
- Ньюстальгия: как говорить с ностальгирующей аудиторией
- Распознаем STL-код легко: std::vector
- Есть ли жизнь после Cisco ISE? Распаковка и тест-драйв российского NAC от Eltex в сетевой лаборатории
- ИИ взломали. Кто бы мог подумать?
- DPI, ТСПУ и операторы: архитектура блокировки трафика в России