RAG Testing: как не сломать retrieval

Все блоги / Про интернет 20 февраля 2026 39

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному.

Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ.

В статье - практический гайд по тестированию обеих поверхностей:

6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70

Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи

Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo

CI/CD pipeline: автоматический quality gate при обновлении knowledge base

От pip install ragas до GitHub Actions - всё с кодом и конфигами.

Источник: Хабрахабр

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Похожие публикации

Ю-эксперт: Вкусный и здоровый гайд по юзабилити-тестированиям

В этой статье мы подробно рассказываем о том, как проводить удаленное модерируемое юзабилити-тестирование на наглядном примере Расскажу вам историю о том, как непродуманный интерфейс помешал мне сделать покупку. Однажды знакомый посоветовал почитать книгу Робертса «Шантарам», он так ярко и красочно

подробнее »

12 марта 2021

Тоня Самсонова, «Яндекс.Q»: о травле, трафике и нейросетях в UGC

Roem публикует текстовую версию интервью основательницы The Question и главы «Яндекс.Q» Тони Самсоновой подкасту «Медиасреда». Разговор состоялся в декабре 2019 года. В беседе Тоня рассказала о: Создании нового сервиса на базе TheQuestion и «Яндекс.Знатоков». Том каким будет «Яндекс.Q». Как

подробнее »

11 апреля 2020

Открытка компании: Ашманов о конспирологии

http://www.radiomayak.ru/fragment/show/fragment_id/24500/brand_id/461 КУЗИЧЕВ: Игорь Ашманов пришел к нам в студию. Какой собеседник роскошный! Игорь, привет. АШМАНОВ: Здравствуйте. САВЕЛЬЕВ: Давайте для тех, кто не знает. Игорь Ашманов - российский специалист в области искусственного интеллекта,

подробнее »

27 августа 2012

Андрей Бронецкий, Mamba — как монетизировать потребность в любви

Синодов: Приветствую, дорогие слушатели! В эфире подкаст "Медиасреда", который делает совместное издание Adindex.ru и обменная сеть новостей Smi2.ru. Сегодня у нас в гостях Андрей Бронецкий, здравствуйте. Аудиоверсию можно послушать прямо сейчас на сайте Adindex.ru, в сообществе Adindex.ru в VK, на

подробнее »

21 апреля 2020

Бакунов, «Яндекс»: Нужно прекращать думать о далеком будущем и пару лет подумать о том, как улучшать настоящее

23 декабря директор по распространению технологий Яндекса Григорий Бакунов представил тренды на ближайшие 2 года на конференции Feedback в #tceh. Roem.ru публикует расшифровку полностью. Фото: #tceh Григорий: Маленькое интро — такую презентацию я делаю последние 4-5 лет, до этого я делал её в

подробнее »

24 декабря 2015

Сергей Марин: Большие данные в рекламе и медиа. Что умеют технологии и как это работает

Большие данные давно стали неотъемлемой частью маркетинга, но они до сих пор окружены мифами. Может ли внедрение big data поднять продажи или компаниям лучше полагаться на свои коммерческие отделы, действительно ли сегодня маркетологи знают о своих потребителях все и заменит ли рекламистов и

подробнее »

4 мая 2020