Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench
Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно.
Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев.
И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.
Читать далееИсточник: Хабрахабр
Похожие новости
- Безопасность ИИ: как перестать бежать анализировать каждое новое ПО и перейти к системному подходу
- [Перевод] Как Cursor с Claude Opus снёс продакшен базу данных за 9 секунд
- Мерчандайзинг в интерфейсах: Как ваши привычки стали врагом номер один
- Вход по УКЭП в корпоративных системах: практическая архитектура
- Миллион в месяц за блокировки интернета, или чем отличается капитализм от социализма
- Экспертное мнение: Искусство слушания: 10 техник медиации, которые меняют восприятие и поведение в бизнес-конфликте
- Когда расширение делает больше, чем обещает: разбор Page Locker
- Российская инфраструктура стала тихой гаванью для киберпреступников. Причем тут Руцентр, Рег.Ру и DDoS-Guard?
- Pragmata взломали за два дня до релиза. Шесть слоёв защиты Denuvo и как их обходят через гипервизор
- Страшно, когда не видно: взгляд внутрь домена