Как мы строим умный «файрвол» для LLM

Все блоги / Про интернет 22 июля 2025 72

Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт-атакам. Мы его назвали AVI – Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале Applied Science. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть.

Заинтересовавшиеся – велком под кат.

Источник: Хабрахабр

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Похожие публикации

Анастасия Лобада ИД «Коммерсантъ»: Как завоевать аудиторию и сохранить репутацию

Текстовая версия подкаста "Медиасреда", в котором ведущие поговорили с Анастасией Лобадой, заместителем директора по цифровой стратегии ИД "Коммерсантъ" о том, как изданию привлекать на свою площадку больше аудитории, не используя словосочетания "попа Ким Кардашьян", каким образом медиа сохранить

подробнее »

17 апреля 2020

Иван Макаров, Юлия Сапронова: Как журналистам РБК прививали любовь к диджиталу

Аудиоверсию подкаста можно послушать прямо сейчас на сайте Adindex.ru, на Яндекс.Музыке, в подкастах Apple, на SoundCloud, в сообществе Adindex.ru в VK. Текст отредактирован с целью повышения удобочитаемости. Синодов Ю.: Приветствую, дорогие слушатели. В эфире подкаст "Медиасреда", который делает

подробнее »

3 февраля 2020

Кремниевая долина: старикам здесь не место

Не так давно в The New Republic вышла статья шеф-редактора издания Ноама Шайбера, в которой рассказывалось о том, что в Кремниевой долине людям среднего возраста и старше приходится совсем не сладко. Это очень интересный и в чем-то философский текст, так что мы не могли пройти мимо и перевели его.

подробнее »

9 апреля 2014

Тоня Самсонова, «Яндекс.Q»: о травле, трафике и нейросетях в UGC

Roem публикует текстовую версию интервью основательницы The Question и главы «Яндекс.Q» Тони Самсоновой подкасту «Медиасреда». Разговор состоялся в декабре 2019 года. В беседе Тоня рассказала о: Создании нового сервиса на базе TheQuestion и «Яндекс.Знатоков». Том каким будет «Яндекс.Q». Как

подробнее »

11 апреля 2020

Доклад Ашманова: как заставить платформы отказаться от плохого контента

27 января был опубликован список поручений Президента РФ по итогам встречи с советом по правам человка (СПЧ). Первым пунктом значится поручение "рассмотреть представленные президентом акционерного общества «Крибрум» Ашмановым И.С. предложения по реализации проекта создания саморегулируемого реестра

подробнее »

30 января 2022

Андрей Бронецкий, Mamba — как монетизировать потребность в любви

Синодов: Приветствую, дорогие слушатели! В эфире подкаст "Медиасреда", который делает совместное издание Adindex.ru и обменная сеть новостей Smi2.ru. Сегодня у нас в гостях Андрей Бронецкий, здравствуйте. Аудиоверсию можно послушать прямо сейчас на сайте Adindex.ru, в сообществе Adindex.ru в VK, на

подробнее »

21 апреля 2020