Как сделать ИИ-агентов безопасными? Разбор архитектуры безопасности агентского ИИ от OpenAI
Когда агент может сам читать репозитории, выполнять shell-команды и взаимодействовать с инструментами разработки, возникает закономерный вопрос: как обеспечить информ.безопасность? OpenAI опубликовали подробности о том, как они сами у себя внутри работают с агентами. Разберём по частям.
Что такое Codex, для тех, кто еще не успел попробовать
Codex - это ИИ-агент: он автономно обходит репозитории, запускает команды, дёргает внешние API и инструменты разработчика. Агенты могут работать параллельно, в изолированных копиях кода, а пользователь переключается между задачами, смотрит изменения и забирает результат.
Зачастую пользователи создают мультиагентскую среду, не требующую участия человека. Если учесть, что и с человеком дыры в безопасности поражают, то о какой безопасности может идти речь, если агенты имеют вседозволенность в контуре?
Именно поэтому у OpenAI сформировался чёткий принцип развёртывания: низкорисковые действия - без остановок, высокорисковые - с проверкой.
Слой 1: Песочница и система одобрений
Первая линия контроля sandbox. Он определяет техническую границу выполнения, куда Codex может писать, к каким путям имеет доступ, что остаётся защищённым.
Поверх sandbox работает политика одобрений: если агент хочет сделать что-то за пределами песочницы, он обязан запросить разрешение. Пользователь может одобрить действие разово или разрешить целый класс действий на сессию.
Чтобы агент не превращался в машину по генерации диалогов "разрешить/запретить", OpenAI добавили режим автопроверки (auto_review). Это субагент, который запущен рядом и молча одобряет рутинные низкорисковые запросы без прерывания пользователя. Но стоит появиться чему-то нестандартному или потенциально опасному - управление передаётся человеку.
Читать далееИсточник: Хабрахабр
Похожие новости
- AI-пентестер: охотник или добыча
- [Перевод] Изнурительно подробное руководство по SSH (лишь те аспекты, которые я нахожу полезными)
- Сибирскому провайдеру погрозили пальцем за утечку данных десятков тысяч пользователей
- Безопасность GitHub Actions: модель угроз, атаки и меры защиты. Часть 1
- GDDRHammer и GeForge— анатомия атак, превративших видеопамять в оружие
- Spark_news: 85% фрилансеров не знают, что такое полноценный отдых
- [Перевод] YellowKey: zero-day эксплойт полностью обходит стандартную защиту BitLocker в Windows 11
- Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?
- Spark_news: Компании в сфере туризма и ПО стали драйверами рекламного рынка
- Air Production: Как построить ecom для мебельного ритейла с каталогом в 100 000 SKU и 2 млн конфигураций товаров