Как мы строим умный «файрвол» для LLM
Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт-атакам. Мы его назвали AVI – Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале Applied Science. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть.
Заинтересовавшиеся – велком под кат.
Читать далееИсточник: Хабрахабр
Похожие новости
- Права в Linux: chown/chmod, SELinux context, символьная/восьмеричная нотация, DAC/MAC/RBAC/ABAC
- Как запустить VLESS + Reality на старом Intel iMac с macOS Catalina 10.15.8
- Кто выпустил гончую. Ищем следы коллекторов BloodHound в логах Windows
- HTML во вложении — это программа. Почему почтовые фильтры его пропускают и как SOC его ловит
- Как СМИ рождают “хакеров” и как сам Глава группировки слил секретные методы DDoS
- Погосян Марго: В топ-4 рынка с маскотом
- Пентест с помощью ИИ в России и материалы для сертификации по безопасности ИИ
- Интеграция MULTIDIRECTORY и MULTIFACTOR: двухфакторная аутентификация в Kerberos
- Глухарь ESPшный — мемуары охотника
- Когнитивная эргономика в веб-дизайне: Как не отупеть от собственного интерфейса