Как меняются метрики контроля при переходе от чат‑ботов к агентным системам
Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их...
ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях
В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от...
[Перевод] Отравление данных: бэкдоры в датасетах, поисковой выдаче и инструментах ИИ — и как защищаться
В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров...
Как изменилась индустрия AI Security за 2025 год?
В начале 2026 года мы (авторы телеграм-каналов по безопасности ИИ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд. Участники дискуссии - Я, Артём Семенов, автор PWN AI; Борис Захир, автор канала...
Эволюция морали: чему биология может научить разработчиков AGI
Современные подходы к безопасности ИИ часто сводятся к внешним запретам и попыткам заставить системы выглядеть «этичными». Однако системный анализ и опыт биологической эволюции указывают на то, что подобные методы прямого ограничения могут оказаться неэффективными при масштабировании систем до...
Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё
Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает...