Как мы строим умный «файрвол» для LLM

Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт-атакам. Мы его назвали AVI – Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале Applied Science. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть.
Заинтересовавшиеся – велком под кат.
Читать далееИсточник: Хабрахабр