Claude, есть пробитие: взламываем самую защищенную модель

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня...

Все блоги / Про интернет

[Перевод] Что не так с MCP (Model Context Protocol)?

Анализ уязвимости и ограничения Model Context Protocol для подключения инструментов к ИИ-ассистентам. Узнаете, как оценить риски MCP-интеграций в своих проектах и минимизировать угрозы безопасности Читать далее...

Все блоги / Про интернет

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с...

Все блоги / Про интернет

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Я — простой студент, который обучается по направлению «Информационная безопасность». Так вышло, что по программе мне нужно было написать научную статью по теме ИБ. Будучи авантюристом я выбрал тему, которая была мне ближе и интереснее... и так получилось, что в пылу энтузиазма я немного...

Все блоги / Про интернет

Способы атаки на ИИ (Claude & ChatGPT): floating attention window attack

Хакеры придумывают всё более изощренные способы атаки на искусственный интеллект. Один из наиболее интересных — это атака «плавающего окна внимания»: злоумышленники манипулируют контекстом диалога с ИИ, подталкивая его к опасным выводам и смещению фокуса. Чрезвычайно тонкий подход, позволяющий...

Все блоги / Про интернет