Как сделать ИИ-агентов безопасными? Разбор архитектуры безопасности агентского ИИ от OpenAI

Все блоги / Про интернет 12 мая 2026 16   

Когда агент может сам читать репозитории, выполнять shell-команды и взаимодействовать с инструментами разработки, возникает закономерный вопрос: как обеспечить информ.безопасность? OpenAI опубликовали подробности о том, как они сами у себя внутри работают с агентами. Разберём по частям.

Что такое Codex, для тех, кто еще не успел попробовать

Codex - это ИИ-агент: он автономно обходит репозитории, запускает команды, дёргает внешние API и инструменты разработчика. Агенты могут работать параллельно, в изолированных копиях кода, а пользователь переключается между задачами, смотрит изменения и забирает результат.

Зачастую пользователи создают мультиагентскую среду, не требующую участия человека. Если учесть, что и с человеком дыры в безопасности поражают, то о какой безопасности может идти речь, если агенты имеют вседозволенность в контуре?

Именно поэтому у OpenAI сформировался чёткий принцип развёртывания: низкорисковые действия - без остановок, высокорисковые - с проверкой.

Слой 1: Песочница и система одобрений

Первая линия контроля sandbox. Он определяет техническую границу выполнения, куда Codex может писать, к каким путям имеет доступ, что остаётся защищённым.

Поверх sandbox работает политика одобрений: если агент хочет сделать что-то за пределами песочницы, он обязан запросить разрешение. Пользователь может одобрить действие разово или разрешить целый класс действий на сессию.

Чтобы агент не превращался в машину по генерации диалогов "разрешить/запретить", OpenAI добавили режим автопроверки (auto_review). Это субагент, который запущен рядом и молча одобряет рутинные низкорисковые запросы без прерывания пользователя. Но стоит появиться чему-то нестандартному или потенциально опасному - управление передаётся человеку.

Читать далее
  • Оцените публикацию
  • 0

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

Похожие публикации

Архив публикаций