Как мы строим умный «файрвол» для LLM
Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт-атакам. Мы его назвали AVI – Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале Applied Science. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть.
Заинтересовавшиеся – велком под кат.
Читать далееИсточник: Хабрахабр
Похожие новости
- Цифровой фронтир: Почему малому бизнесу пора вспомнить опыт Napster
- «РБПО для бедных»: собираем CI/CD-конвейер безопасной разработки
- Я обнаружил крупномасштабное распространение вирусов в GitHub
- ChatGPT теперь требует селфи с паспортом: как OpenAI и Anthropic внедряют KYC и убивают анонимность в ИИ
- Обзор решений двухфакторной аутентификации на 2026 год
- Сервис «Скорозвон»: Как мы проверяем продавцов без субъективных оценок руководителя: методика аттестации отдела продаж
- NextDNS, AdGuard DNS, Cloudflare for Families, Pi-hole, мы — честное сравнение от конкурента
- Криптографы «Криптонита» создали новый способ проверки устойчивости постквантовых криптосистем
- gost-curl — консольный HTTP-клиент с поддержкой ГОСТ TLS 1.3
- Я год не писал код руками. Но я не вайбкодер — и это две разные профессии