Как я построил guardrails, которые не дали моему AI-агенту пойти вразнос
На третий день в проде мой support-агент на LangGraph и GPT-4o слил email одного клиента в переписку с другим. Причина банальна: модель вставила сырой контекст из базы прямо в ответ, и ничто в пайплайне это не проверяло. Фреймворки для агентов дают оркестрацию, вызов инструментов и память — но не безопасность. В этой статье разбираю стек из четырёх guardrails (валидация входа, валидация выхода, circuit breaker по расходам и проверка вызова инструментов), который умещается в ~200 строк Python и добавляет менее 40 мс latency. С рабочим кодом, схемой пайплайна и честным разбором того, что эти guardrails ловят, а что — нет.
Читать далееИсточник: Хабрахабр
Похожие новости
- Product Radar: Экспресс-аудит кибербезопасности, AI-студия для создания мини-сериалов – и ещё 8 российских стартапов
- Мультистейдж-сборка на Docker BuildX: мифы и реальность
- Текст как бензин: Почему в эпоху нейросетей и подкастов старый добрый шрифт всё ещё рулит
- OpenVEX в CI/CD: как перестать бороться с ложными CVE и научить Trivy понимать контекст
- Prompt injection нельзя запатчить: год «летальной триады» и лента CVE 2026 года
- OSINT для ленивых. Заметки на полях. Пароли
- Технический трек R-EVOlution Conference 2026: 11 докладов, которые теперь можно посмотреть в записи
- «Fix typo»: как в PHP закоммитили бэкдор и почему composer install — это акт доверия
- Книга: «Безопасность контейнеров. Фундаментальный подход к защите контейнеризированных приложений. 2-е изд.»
- Android Kiosk: как купить сухарики, когда ларёк закрыт