Как я устал тестировать LLM-системы вручную и написал универсальный сканер уязвимостей
Полгода назад я работал над внедрением RAG-системы в крупной финансовой компании. Задача была типичная: построить корпоративного чат-бота, который мог бы отвечать на вопросы сотрудников по внутренним документам. Казалось бы, что может пойти не так? Берем готовую LLM, подключаем к базе знаний, добавляем немного магии с векторным поиском — и готово.
Но когда я начал тестировать систему перед продакшеном, обнаружил, что наш "умный" ассистент превращается в болтливого предателя при правильно сформулированных вопросах.
Читать далееИсточник: Хабрахабр
Похожие новости
- Разбираем новый закон про VPN и «поиск материалов» с технической точки зрения
- Новости кибербезопасности за неделю с 14 по 20 июля 2025
- [Перевод] Как я нашел критическую IDOR уязвимость в корпоративном портале бронирования Индийских железных дорог
- Как Stripe использует r.stripe.com/b: глубинный взгляд на антибот-защиту
- Как работает поведенческий антифрод в платёжных системах
- ИИ Детокс: DuckDuckGo запускает фильтр для удаления изображений, сгенерированных ИИ
- Работа с RISC-V контроллерами на примере CH32V303. Часть 8. Привилегии и защита памяти
- Нюк-Нюк в эктоплазме дружелюбного Каспера
- Как мы протестировали Stripe с 10 конфигурациями: VPN, Canvas, Spoof и поведенческий JS
- 56% россиян узнаёт о новых брендах у блогеров и на маркетплейсах