Как мы строим умный «файрвол» для LLM
Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт-атакам. Мы его назвали AVI – Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале Applied Science. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть.
Заинтересовавшиеся – велком под кат.
Читать далееИсточник: Хабрахабр
Похожие новости
- Инсайдеры vs хакеры — кто опаснее?
- [Перевод] Как я превратил простую HTML-инъекцию в SSRF с помощью рендеринга PDF
- Как стать менеджером по продукту, если вы никогда этим не занимались
- Юридический разбор формулировок нового закона о поиске экстремистских материалов
- О мессенджерах, блокировках и анонимности
- [Перевод] Архитектура корпоративных данных: AWS + Snowflake
- [Перевод] [Перевод] Поиск способов закрепления в Linux (Часть 2). Манипуляция учётными записями
- [Перевод] Обнаружение уязвимостей ИИ агентов. Часть II: Исполнение кода
- 72% российских компаний не готовы платить рекламным агентствам больше
- Секретные ингредиенты безопасной разработки: исследуем способы точного и быстрого поиска секретов