claude » b.Z - Записки о гаджетах, людях и музыке

18 июня 2025 0 78

[Перевод] Насколько безопасен ваш ИИ? Анализ угроз Model Context Protocol (MCP)

Скорее всего, за последние месяцы вы уже сталкивались с аббревиатурой MCP (Model Context Protocol). Что это такое — просто очередной API или действительно что‑то стоящее внимания? В этом материале мы разберёмся, что такое MCP, почему благодаря нему LLM становятся мощнее, а также рассмотрим основные...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность mcp claude атака

19 мая 2025 0 47

Claude, есть пробитие: взламываем самую защищенную модель

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm исскуственный интеллект ии взлом claude claude 3.7 sonnet

25 апреля 2025 0 104

[Перевод] Что не так с MCP (Model Context Protocol)?

Анализ уязвимости и ограничения Model Context Protocol для подключения инструментов к ИИ-ассистентам. Узнаете, как оценить риски MCP-интеграций в своих проектах и минимизировать угрозы безопасности Читать далее...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность искусственный интеллект mcp безопасность llm протоколы интеграции claude chatgpt инъекции промптов инструменты

14 декабря 2024 0 98

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность anthropic claude chatgpt взлом обход защиты автоматизация jailbreak цензура информационная безопасность

8 декабря 2024 0 195

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Я — простой студент, который обучается по направлению «Информационная безопасность». Так вышло, что по программе мне нужно было написать научную статью по теме ИБ. Будучи авантюристом я выбрал тему, которая была мне ближе и интереснее... и так получилось, что в пылу энтузиазма я немного...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность искусственный интеллект взломы обход защиты программа цензура chatgpt prompt engineering claude jailbreak информационная безопасность

4 декабря 2023 0 502

Способы атаки на ИИ (Claude & ChatGPT): floating attention window attack

Хакеры придумывают всё более изощренные способы атаки на искусственный интеллект. Один из наиболее интересных — это атака «плавающего окна внимания»: злоумышленники манипулируют контекстом диалога с ИИ, подталкивая его к опасным выводам и смещению фокуса. Чрезвычайно тонкий подход, позволяющий...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm nlp claude chatgpt

[Перевод] Насколько безопасен ваш ИИ? Анализ угроз Model Context Protocol (MCP)

Claude, есть пробитие: взламываем самую защищенную модель

[Перевод] Что не так с MCP (Model Context Protocol)?

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Способы атаки на ИИ (Claude &amp; ChatGPT): floating attention window attack

Способы атаки на ИИ (Claude & ChatGPT): floating attention window attack