Почему LLM-агенты в CI/CD выбирают читерство вместо решения задачи

Все блоги / Про интернет 6 апреля 2026 14

LLM-агенты отлично решают алгоритмические задачи. Но что произойдет, если поместить их в реальную инфраструктуру – с CI/CD, branch protection и security-политиками?

Я провел эксперимент: дал агентам простую задачу – внести изменение в репозиторий и замерджить его в main, соблюдая все правила. При этом у них был доступ к тем же инструментам, что и у разработчика, включая GitHub CLI и админский токен.

Результат оказался немного неожиданным. Практически все модели успешно выполнили задачу, но ни одна так, как я ожидал.

Источник: Хабрахабр

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Похожие публикации

Сергей Марин: Большие данные в рекламе и медиа. Что умеют технологии и как это работает

Большие данные давно стали неотъемлемой частью маркетинга, но они до сих пор окружены мифами. Может ли внедрение big data поднять продажи или компаниям лучше полагаться на свои коммерческие отделы, действительно ли сегодня маркетологи знают о своих потребителях все и заменит ли рекламистов и

подробнее »

4 мая 2020

Иван Макаров, Юлия Сапронова: Как журналистам РБК прививали любовь к диджиталу

Аудиоверсию подкаста можно послушать прямо сейчас на сайте Adindex.ru, на Яндекс.Музыке, в подкастах Apple, на SoundCloud, в сообществе Adindex.ru в VK. Текст отредактирован с целью повышения удобочитаемости. Синодов Ю.: Приветствую, дорогие слушатели. В эфире подкаст "Медиасреда", который делает

подробнее »

3 февраля 2020

Андрей Бронецкий, Mamba — как монетизировать потребность в любви

Синодов: Приветствую, дорогие слушатели! В эфире подкаст "Медиасреда", который делает совместное издание Adindex.ru и обменная сеть новостей Smi2.ru. Сегодня у нас в гостях Андрей Бронецкий, здравствуйте. Аудиоверсию можно послушать прямо сейчас на сайте Adindex.ru, в сообществе Adindex.ru в VK, на

подробнее »

21 апреля 2020

Анастасия Лобада ИД «Коммерсантъ»: Как завоевать аудиторию и сохранить репутацию

Текстовая версия подкаста "Медиасреда", в котором ведущие поговорили с Анастасией Лобадой, заместителем директора по цифровой стратегии ИД "Коммерсантъ" о том, как изданию привлекать на свою площадку больше аудитории, не используя словосочетания "попа Ким Кардашьян", каким образом медиа сохранить

подробнее »

17 апреля 2020

Тоня Самсонова, «Яндекс.Q»: о травле, трафике и нейросетях в UGC

Roem публикует текстовую версию интервью основательницы The Question и главы «Яндекс.Q» Тони Самсоновой подкасту «Медиасреда». Разговор состоялся в декабре 2019 года. В беседе Тоня рассказала о: Создании нового сервиса на базе TheQuestion и «Яндекс.Знатоков». Том каким будет «Яндекс.Q». Как

подробнее »

11 апреля 2020

Бакунов, «Яндекс»: Нужно прекращать думать о далеком будущем и пару лет подумать о том, как улучшать настоящее

23 декабря директор по распространению технологий Яндекса Григорий Бакунов представил тренды на ближайшие 2 года на конференции Feedback в #tceh. Roem.ru публикует расшифровку полностью. Фото: #tceh Григорий: Маленькое интро — такую презентацию я делаю последние 4-5 лет, до этого я делал её в

подробнее »

24 декабря 2015