Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench
Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно.
Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев.
И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.
Читать далееИсточник: Хабрахабр
Похожие новости
- Product Radar: Экспресс-аудит кибербезопасности, AI-студия для создания мини-сериалов – и ещё 8 российских стартапов
- Мультистейдж-сборка на Docker BuildX: мифы и реальность
- Текст как бензин: Почему в эпоху нейросетей и подкастов старый добрый шрифт всё ещё рулит
- OpenVEX в CI/CD: как перестать бороться с ложными CVE и научить Trivy понимать контекст
- Prompt injection нельзя запатчить: год «летальной триады» и лента CVE 2026 года
- OSINT для ленивых. Заметки на полях. Пароли
- Технический трек R-EVOlution Conference 2026: 11 докладов, которые теперь можно посмотреть в записи
- «Fix typo»: как в PHP закоммитили бэкдор и почему composer install — это акт доверия
- Книга: «Безопасность контейнеров. Фундаментальный подход к защите контейнеризированных приложений. 2-е изд.»
- Android Kiosk: как купить сухарики, когда ларёк закрыт