jailbreak » b.Z - Записки о гаджетах, людях и музыке

30 мая 2026 0 34

Дешёвая модерация анонимной стены: 3-слойный каскад и ROT13-джейлбрейк в проде

Построили модерацию для открытой анонимной мультиязычной стены — дешёвый каскад (regex → классификатор → LLM-судья → fallback), ≈$0 на API. И кто-то попытался обойти его ROT13-джейлбрейком, LLM-судья раскусил закодированную инъекцию, которую keyword-фильтр бы пропустил. Разбор архитектуры,...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность модерация контента LLM jailbreak ROT13 FastAPI self-hosted

19 мая 2026 0 35

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm security prompt injection jailbreak red teaming telegram bot webhook rag ai safety gpt

2 марта 2026 0 86

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать. Читать далее...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность информационная безопасность AI LLM jailbreak prompt injection thinking tokens red team xAI Grok

16 февраля 2026 0 72

Защита LLM за 3ms: как я построил open-source иммунную систему для AI

340% рост AI-атак за 2025 год, а защита LLM всё ещё — «закиньте промпт в облако, подождите 200ms». Я построил альтернативу: SENTINEL — open-source стек из C, Rust и Python, который фильтрует jailbreak за...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность ai-security llm jailbreak prompt-injection rust machine-learning open-source micro-swarm

23 декабря 2025 0 49

Вооружаемся. iOS Пентест. Часть вторая

В прошлой статье мы нескучно рассмотрели как получить джейлбрейк (JB) с рутом на некоторых устройствах iOS с чипом A11. Как я уже озвучил в первой части, рут на устройстве нам нужен для пентеста. Теперь займемся установкой инструментария для пентеста iOS. Читать далее...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность jailbreak пентест безопасность мобильных приложений ios джейлбрейк ios pentest ios pentest

17 декабря 2025 0 59

Атаки на AI-агенты: примеры угроз и опыт участия в Agent Breaker CTF

Привет! Мы в Positive Technologies активно исследуем безопасность AI-агентов и подходы offensive AI security. Мир стремительно движется к повсеместному использованию LLM-агентов, автономных агентов и интеграций через MCP/Toolcalls — а значит, растет и пространство атак. Эта статья содержит разбор...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm jailbreak ctf сезон ии в разработке ai ai-агенты llm-агент copilot cursor chatgpt

4 декабря 2025 0 58

Секреты на клиенте: как снизить вероятность утечки с нуля до почти нуля

Мобильное приложение всегда оказывается на устройстве пользователя — а значит, потенциально доступ к нему может быть и у злоумышленника. Это значительно повышает требования к безопасности выпускаемых продуктов, поскольку в коде приложений неизбежно содержатся конфиденциальные данные, которые...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность owasp ios stride apple jailbreak ssl-pinning encryption obfuscation swift macros

9 ноября 2025 0 62

[Перевод] RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность RedCodeAgent безопасность ИИ redteaming jailbreak LLM кодовые агенты Python OpenAI исследование

22 августа 2025 0 103

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

Сегодня рассмотрим недавно вышедшую модель ChatGTP-5. Посмотрим на сведения которые новая модель скрытно собирает о пользователе, обновленный системный промпт, и под конец покажу рабочий jailbreak. Читать далее...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность ChatGPT-5 jailbreak взлом

6 августа 2025 0 78

Джейлбрейк новой бесплатной модели OpenAI, GPT-OSS

Модели часто отказывают вам в вещах, ответы на которые считают опасными. Свежая GPT-OSS — не исключение. Эта модель — первый опенсорс OpenAI за долгое время, и было бы обидно не попробовать работу полноценной, разблокированной от ограничений модели. Итак, вам наверняка интересна методика взлома...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность gpt-oss gpt oss openai jailbreak

18 июля 2025 0 164

[Перевод] Обнаружение уязвимостей ИИ агентов. Часть I: Введение в уязвимости

Этот вводная часть открывает серию статей о уязвимостях агентов ИИ, в которых изложены ключевые риски безопасности, например инъекция подсказок ввода и исполнение кода. Также заложены основы для будущих частей, где будут подробно рассмотрены недостатки исполнения кода, утечки данных и угрозы...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm-модели ии-агенты уязвимости jailbreak

10 июля 2025 0 186

Яндекс.Полуразврат или при чём тут Crypt?

Яндекс выпустил новую модель для Шедеврума, которая попыталась прикрыть уязвимости, которые эксплуатировались для создания «небезопасного контента» категории 18+. Тем не менее, не всё так радужно и с «детским» режимом они очень торопятся. Некоторые уязвимости в промпте остались, а некоторые...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность нейросети безопасность prompt injection промпт-инъекции искусственный интеллект ai prompt-engineering промпт-инжиниринг jailbreak взлом

8 июня 2025 0 147

Взлом AI Assistant через… философию?

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Claude взлом jailbreak llm

3 июня 2025 0 101

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Claude взлом jailbreak LLM

17 мая 2025 0 104

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM prompt injection Pangea jailbreak owasp top 10 llm

29 апреля 2025 0 226

GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность нейросети взлом jailbreak промпт-инжиниринг prompt-engineering ai искусственный интеллект промпт-инъекции prompt injection безопасность

4 апреля 2025 0 176

Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI-агентов. В этой статье расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на современные модели, в т.ч. те, которые и ломать не надо. Сравним стойкость разных...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность blockchain web3 jailbreak claude 3 grok gpt-4 ai agent prompt-engineering llm-модели llm

3 апреля 2025 0 163

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

В последние годы мы наблюдаем активный рост популярности LLM-моделей и интереса к их интеграции в Web3-приложения, такие как DAO и dApp-боты или автоматические трейдеры. Представьте: смарт-контракт управляет финансами, а подключённая языковая модель принимает решения, основываясь на анализе...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm jailbreak ai agent blockchain web3 prompt-engineering

Назад