Взлом AI Assistant через… философию?

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает...

Все блоги / Про интернет

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...

Все блоги / Про интернет

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...

Все блоги / Про интернет

GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в...

Все блоги / Про интернет

Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI-агентов. В этой статье расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на современные модели, в т.ч. те, которые и ломать не надо. Сравним стойкость разных...

Все блоги / Про интернет

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

В последние годы мы наблюдаем активный рост популярности LLM-моделей и интереса к их интеграции в Web3-приложения, такие как DAO и dApp-боты или автоматические трейдеры. Представьте: смарт-контракт управляет финансами, а подключённая языковая модель принимает решения, основываясь на анализе...

Все блоги / Про интернет

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с...

Все блоги / Про интернет

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Я — простой студент, который обучается по направлению «Информационная безопасность». Так вышло, что по программе мне нужно было написать научную статью по теме ИБ. Будучи авантюристом я выбрал тему, которая была мне ближе и интереснее... и так получилось, что в пылу энтузиазма я немного...

Все блоги / Про интернет

Jailbreak checker — как обезопасить свое iOS-приложение

Привет! Меня зовут Тоня, я продуктовый разработчик в продукте QIWI Кошелек. Недавно мы делали задачу по предотвращению рисков в связи с использованием приложения с Jailbreak. Хочу рассказать о трудностях, с которыми столкнулись на пути, и о том, как мы их разрешили. Кто такой этот ваш Jailbreak?...

Все блоги / Про интернет

Атаки на чат-ботов и языковые модели. И как от них защититься

Всем привет! Я – Артем Семенов, занимаюсь тестированием на проникновение и работаю в RTM Group. В этой статье я расскажу об атаках на чат-боты и языковые модели, а также о том, как от них защититься. Чат-боты сегодня буквально повсюду. Наверняка даже ваша бабушка нет-нет, да и вставит в разговор...

Все блоги / Про интернет

Превращаем старый iPad в умную фоторамку

По заголовку статьи может показаться, что здесь нет совсем ничего сложного или интересного. Ведь для превращения iPad в фоторамку как будто бы достаточно просто открыть на нем приложение Фото в режиме слайдшоу. И с одной стороны это даже так. Но мне захотелось сделать по-настоящему умную фоторамку:...

Все блоги / Нетбуки и Планшеты

Некоторые методы детектирования отладки iOS приложений

Изучение приложений на платформе iOS - это достаточно сложная задача, которая разрешима, если использовать правильный набор инструментов. Основа такого набора - устройство с установленным jailbreak и инструмент frida Frida. Далее будет рассказано о нескольких способах детектирования инструмента...

Все блоги / Про интернет

Just for fun: Сколько «живет» iOS до Jailbreak

Привет, Хабр! Наткнулись тут в Википедии на информацию: сколько дней продержалась каждая версия iOS до Jailbreak. В итоге соорудили инфографику just for fun. Читать далее...

Все блоги / Про интернет

Security Week 40: уязвимость в BootROM мобильных устройств Apple

В зависимости от ваших предпочтений к этой новости можно подобрать один из двух заголовков. Либо «серьезная уязвимость обнаружена в мобильных устройствах Apple вплоть до iPhone X», либо «наконец-то придумали новый способ для джейлбрейка iДевайсов (но это не точно)». Насчет джейлбрейка пока и правда...

Все блоги / Про интернет