Безопасность AI » b.Z - Записки о гаджетах, людях и музыке

26 мая 2026 0 31

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

Топовые AI-модели с 95% на SWE-bench показывают 0% и 3% на ProgramBench бенчмарке, где задачи специально не пересекаются с обучающей выборкой. Не «упали на десять пунктов» - обнулились. Параллельно: в мае 2025 Anthropic опубликовали safety-эксперимент, где Claude Opus 4 в 84-96% случаев пытался...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность AI-агенты llm anthropic Claude ProgramBench Agentic misalignment Бенчмарки LLM AI в production Безопасность AI Reliability