jailbreak » b.Z - Записки о гаджетах, людях и музыке

6 августа 2025 0 11

Джейлбрейк новой бесплатной модели OpenAI, GPT-OSS

Модели часто отказывают вам в вещах, ответы на которые считают опасными. Свежая GPT-OSS — не исключение. Эта модель — первый опенсорс OpenAI за долгое время, и было бы обидно не попробовать работу полноценной, разблокированной от ограничений модели. Итак, вам наверняка интересна методика взлома...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность gpt-oss gpt oss openai jailbreak

18 июля 2025 0 23

[Перевод] Обнаружение уязвимостей ИИ агентов. Часть I: Введение в уязвимости

Этот вводная часть открывает серию статей о уязвимостях агентов ИИ, в которых изложены ключевые риски безопасности, например инъекция подсказок ввода и исполнение кода. Также заложены основы для будущих частей, где будут подробно рассмотрены недостатки исполнения кода, утечки данных и угрозы...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm-модели ии-агенты уязвимости jailbreak

10 июля 2025 0 25

Яндекс.Полуразврат или при чём тут Crypt?

Яндекс выпустил новую модель для Шедеврума, которая попыталась прикрыть уязвимости, которые эксплуатировались для создания «небезопасного контента» категории 18+. Тем не менее, не всё так радужно и с «детским» режимом они очень торопятся. Некоторые уязвимости в промпте остались, а некоторые...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность нейросети безопасность prompt injection промпт-инъекции искусственный интеллект ai prompt-engineering промпт-инжиниринг jailbreak взлом

8 июня 2025 0 74

Взлом AI Assistant через… философию?

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Claude взлом jailbreak llm

3 июня 2025 0 35

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Claude взлом jailbreak LLM

17 мая 2025 0 34

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM prompt injection Pangea jailbreak owasp top 10 llm

29 апреля 2025 0 117

GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность нейросети взлом jailbreak промпт-инжиниринг prompt-engineering ai искусственный интеллект промпт-инъекции prompt injection безопасность

4 апреля 2025 0 99

Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI-агентов. В этой статье расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на современные модели, в т.ч. те, которые и ломать не надо. Сравним стойкость разных...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность blockchain web3 jailbreak claude 3 grok gpt-4 ai agent prompt-engineering llm-модели llm

3 апреля 2025 0 94

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

В последние годы мы наблюдаем активный рост популярности LLM-моделей и интереса к их интеграции в Web3-приложения, такие как DAO и dApp-боты или автоматические трейдеры. Представьте: смарт-контракт управляет финансами, а подключённая языковая модель принимает решения, основываясь на анализе...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm jailbreak ai agent blockchain web3 prompt-engineering

14 декабря 2024 0 96

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность anthropic claude chatgpt взлом обход защиты автоматизация jailbreak цензура информационная безопасность

8 декабря 2024 0 192

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Я — простой студент, который обучается по направлению «Информационная безопасность». Так вышло, что по программе мне нужно было написать научную статью по теме ИБ. Будучи авантюристом я выбрал тему, которая была мне ближе и интереснее... и так получилось, что в пылу энтузиазма я немного...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность искусственный интеллект взломы обход защиты программа цензура chatgpt prompt engineering claude jailbreak информационная безопасность

21 сентября 2023 0 294

Jailbreak checker — как обезопасить свое iOS-приложение

Привет! Меня зовут Тоня, я продуктовый разработчик в продукте QIWI Кошелек. Недавно мы делали задачу по предотвращению рисков в связи с использованием приложения с Jailbreak. Хочу рассказать о трудностях, с которыми столкнулись на пути, и о том, как мы их разрешили. Кто такой этот ваш Jailbreak?...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность apple ios appstore информационная безопасность джейлбрейк jailbreak

19 мая 2023 0 264

Атаки на чат-ботов и языковые модели. И как от них защититься

Всем привет! Я – Артем Семенов, занимаюсь тестированием на проникновение и работаю в RTM Group. В этой статье я расскажу об атаках на чат-боты и языковые модели, а также о том, как от них защититься. Чат-боты сегодня буквально повсюду. Наверняка даже ваша бабушка нет-нет, да и вставит в разговор...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Информационная безопасность Искусственный интеллект machinelearning chatbots chatgpt jailbreak llm hacking penetration testing

14 мая 2023 0 296

Превращаем старый iPad в умную фоторамку

По заголовку статьи может показаться, что здесь нет совсем ничего сложного или интересного. Ведь для превращения iPad в фоторамку как будто бы достаточно просто открыть на нем приложение Фото в режиме слайдшоу. И с одной стороны это даже так. Но мне захотелось сделать по-настоящему умную фоторамку:...

Все блоги / Нетбуки и Планшеты

Подробнее

Хабрахабр гаджеты Гаджеты Планшеты 3D-принтеры Умный дом DIY или Сделай сам ios jailbreak homeassistant умный дом фоторамка ipad

9 августа 2021 0 277

Некоторые методы детектирования отладки iOS приложений

Изучение приложений на платформе iOS - это достаточно сложная задача, которая разрешима, если использовать правильный набор инструментов. Основа такого набора - устройство с установленным jailbreak и инструмент frida Frida. Далее будет рассказано о нескольких способах детектирования инструмента...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Блог компании OTUS Информационная безопасность Разработка под iOS ios информационная безопасность frida jailbreak

30 октября 2020 0 345

Just for fun: Сколько «живет» iOS до Jailbreak

Привет, Хабр! Наткнулись тут в Википедии на информацию: сколько дней продержалась каждая версия iOS до Jailbreak. В итоге соорудили инфографику just for fun. Читать далее...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Блог компании Swordfish Security Информационная безопасность ios jailbreak юмор

1 октября 2019 0 359

Security Week 40: уязвимость в BootROM мобильных устройств Apple

В зависимости от ваших предпочтений к этой новости можно подобрать один из двух заголовков. Либо «серьезная уязвимость обнаружена в мобильных устройствах Apple вплоть до iPhone X», либо «наконец-то придумали новый способ для джейлбрейка iДевайсов (но это не точно)». Насчет джейлбрейка пока и правда...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Блог компании «Лаборатория Касперского» Информационная безопасность ios bootrom exploit jailbreak