Почему LLM-агенты в CI/CD выбирают читерство вместо решения задачи
LLM-агенты отлично решают алгоритмические задачи. Но что произойдет, если поместить их в реальную инфраструктуру – с CI/CD, branch protection и security-политиками?
Я провел эксперимент: дал агентам простую задачу – внести изменение в репозиторий и замерджить его в main, соблюдая все правила. При этом у них был доступ к тем же инструментам, что и у разработчика, включая GitHub CLI и админский токен.
Результат оказался немного неожиданным. Практически все модели успешно выполнили задачу, но ни одна так, как я ожидал.
Читать далееИсточник: Хабрахабр
Похожие новости
- Хак сортировки новостей по цифровому коду (Плагин для DLE 13-19.1)
- Путаница в уязвимостях WSUS: ставим все на свои места
- Хостеры против VPN: что на самом деле скрывают поправки “Антифрод 2.0”
- Как я чуть не потерял свои скрипты из-за того, что РКН и Telegram не поделили IP-адреса
- Sber X-TI: разбираем бесплатную платформу кибербезопасности от Сбера
- От правил корреляции к когнитивному ассистенту: что меняется в архитектуре SOC с приходом ИИ
- Правда все: Убьет ли ИИ достоверность в онлайне?
- PUNKT E: PUNKT E консолидирует рынок, приобретая операторский бизнес Sitronics Electro
- Квантовая криптография: принципы, протоколы, сети
- SIEM: когда он нужен, правила пользования и как выявить его эффективность