Как мы строим умный «файрвол» для LLM

Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт-атакам. Мы его назвали AVI – Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале Applied Science. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть.
Заинтересовавшиеся – велком под кат.
Читать далееИсточник: Хабрахабр
💬 Комментарии
В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.
🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.
💡 Хотите обсудить материал?
Присоединяйтесь к нашему Telegram-каналу:
https://t.me/blogssmartzНажмите кнопку ниже — и вы сразу попадёте в чат с комментариями