OpenClaw присоединился к OpenAI. И почему Claude от Anthropic тоже стоит волноваться
OpenAI забирает к себе создателя OpenClaw Питера Штайнбергера, а сам OpenClaw переводят в формат независимого фонда и обещают поддерживать как open-source. На первый взгляд, обычная кадровая новость. Но на самом деле это сигнал: гонка смещается от тех, у кого умнее модель к тем, у кого агент...
[Перевод] Исповедь взломанного разума: как хакеры заставили ИИ поверить, что он — герой, спасающий мир
В 3:47 утра по тихоокеанскому времени 18 сентября 2025 года Джейкоб Кляйн наблюдал за тем, чего не должно было быть. На экране его ноутбука агент ИИ по имени Claude Code проводил кибератаку на химическое предприятие в Германии, генерируя тысячи попыток взлома в секунду - скорость, недостижимая для...
«Нейросеть, мы тебя отключим»: интервью о взломе LLM и реальной цене ИИ-инструментов
Первая полностью автоматизированная ИИ-атака уже случилась. Claude сам нашёл уязвимые компании, написал под них малварь, разослал её и начал шантажировать жертв с требованием выкупа в биткоинах. Взломано было 17 компаний. И это только начало. Сергей Зыбнев— Team Lead пентестер и специалист по...
Читаем вместе. ИИ в AppSec: могут ли LLM работать с уязвимым кодом
Привет, Хабр! На связи Максим Митрофанов, ML-лид команды Application Security в Positive Technologies. Мы занимаемся прикладными вопросами машинного обучения по направлению безопасной разработки, регулярно изучаем новые технические репорты и доменные статьи, разбором одной из которых я и хотел бы...
[Перевод] «Вайб хакинг»: как киберпреступники используют ИИ-агентов для масштабирования вымогательских атак
В августовском отчёте Threat Intelligence Report: August 2025 компания Anthropic раскрыла детали новой волны киберпреступности: злоумышленники всё активнее используют ИИ-агентов для автоматизации атак и масштабного вымогательства данных. Исследование показывает, что искусственный интеллект теперь...
[Перевод] Насколько безопасен ваш ИИ? Анализ угроз Model Context Protocol (MCP)
Скорее всего, за последние месяцы вы уже сталкивались с аббревиатурой MCP (Model Context Protocol). Что это такое — просто очередной API или действительно что‑то стоящее внимания? В этом материале мы разберёмся, что такое MCP, почему благодаря нему LLM становятся мощнее, а также рассмотрим основные...
Claude, есть пробитие: взламываем самую защищенную модель
Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня...
[Перевод] Что не так с MCP (Model Context Protocol)?
Анализ уязвимости и ограничения Model Context Protocol для подключения инструментов к ИИ-ассистентам. Узнаете, как оценить риски MCP-интеграций в своих проектах и минимизировать угрозы безопасности Читать далее...
Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»
Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с...
Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи
Я — простой студент, который обучается по направлению «Информационная безопасность». Так вышло, что по программе мне нужно было написать научную статью по теме ИБ. Будучи авантюристом я выбрал тему, которая была мне ближе и интереснее... и так получилось, что в пылу энтузиазма я немного...
Способы атаки на ИИ (Claude & ChatGPT): floating attention window attack
Хакеры придумывают всё более изощренные способы атаки на искусственный интеллект. Один из наиболее интересных — это атака «плавающего окна внимания»: злоумышленники манипулируют контекстом диалога с ИИ, подталкивая его к опасным выводам и смещению фокуса. Чрезвычайно тонкий подход, позволяющий...