безопасность ИИ » b.Z - Записки о гаджетах, людях и музыке

11 июня 2026 0 24

Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз

Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном времени. Это активно использует не только бизнес, но и злоумышленники. В статье рассмотрим современные...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность AI Firewall MITRE ATLAS prompt injection SAFE-AI защита AI моделей безопасность ИИ

4 апреля 2026 0 55

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность агентные системы AI-агенты мультиагентные системы LLM Agentic AI безопасность ИИ контроль агентов трассировка решений tool calling ModelOps

3 апреля 2026 0 42

ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность искусственный интеллект безопасность ИИ мультиагентные системы рассогласование целей передовые модели интриги ИИ обман ИИ цепочка рассуждений исследование ИИ самосохранение

25 февраля 2026 0 43

[Перевод] Отравление данных: бэкдоры в датасетах, поисковой выдаче и инструментах ИИ — и как защищаться

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность отравление данных data poisoning безопасность ИИ LLM бэкдор RAG prompt injection

18 февраля 2026 0 42

Как изменилась индустрия AI Security за 2025 год?

В начале 2026 года мы (авторы телеграм-каналов по безопасности ИИ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд. Участники дискуссии - Я, Артём Семенов, автор PWN AI; Борис Захир, автор канала...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность AI Security LLM prompt injection guardrails red teaming MLSecOps alignment агентные системы LoRA безопасность ИИ

8 января 2026 0 49

Эволюция морали: чему биология может научить разработчиков AGI

Современные подходы к безопасности ИИ часто сводятся к внешним запретам и попыткам заставить системы выглядеть «этичными». Однако системный анализ и опыт биологической эволюции указывают на то, что подобные методы прямого ограничения могут оказаться неэффективными при масштабировании систем до...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность искусственный интеллект AGI безопасность ИИ эмерджентность теория игр кооперация сложные системы эволюция оптимизация исследование и эксплуатация

6 июня 2025 0 110

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Absolute Zero Reasoner AZR машинное обучение без данных самообучающийся ИИ self-play безопасность ИИ AI safety