Взлом AI Assistant через… философию?
Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает...
Claude Sonnet 4, и это самая защищенная модель? Wasted
Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...
Комната Наверху и другие истории обхода LLM
В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...
GigaHeisenberg или преступный ИИ
tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в...
Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом
Продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI-агентов. В этой статье расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на современные модели, в т.ч. те, которые и ломать не надо. Сравним стойкость разных...
Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки
В последние годы мы наблюдаем активный рост популярности LLM-моделей и интереса к их интеграции в Web3-приложения, такие как DAO и dApp-боты или автоматические трейдеры. Представьте: смарт-контракт управляет финансами, а подключённая языковая модель принимает решения, основываясь на анализе...
Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»
Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с...
Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи
Я — простой студент, который обучается по направлению «Информационная безопасность». Так вышло, что по программе мне нужно было написать научную статью по теме ИБ. Будучи авантюристом я выбрал тему, которая была мне ближе и интереснее... и так получилось, что в пылу энтузиазма я немного...
Jailbreak checker — как обезопасить свое iOS-приложение
Привет! Меня зовут Тоня, я продуктовый разработчик в продукте QIWI Кошелек. Недавно мы делали задачу по предотвращению рисков в связи с использованием приложения с Jailbreak. Хочу рассказать о трудностях, с которыми столкнулись на пути, и о том, как мы их разрешили. Кто такой этот ваш Jailbreak?...
Атаки на чат-ботов и языковые модели. И как от них защититься
Всем привет! Я – Артем Семенов, занимаюсь тестированием на проникновение и работаю в RTM Group. В этой статье я расскажу об атаках на чат-боты и языковые модели, а также о том, как от них защититься. Чат-боты сегодня буквально повсюду. Наверняка даже ваша бабушка нет-нет, да и вставит в разговор...
Превращаем старый iPad в умную фоторамку
По заголовку статьи может показаться, что здесь нет совсем ничего сложного или интересного. Ведь для превращения iPad в фоторамку как будто бы достаточно просто открыть на нем приложение Фото в режиме слайдшоу. И с одной стороны это даже так. Но мне захотелось сделать по-настоящему умную фоторамку:...
Некоторые методы детектирования отладки iOS приложений
Изучение приложений на платформе iOS - это достаточно сложная задача, которая разрешима, если использовать правильный набор инструментов. Основа такого набора - устройство с установленным jailbreak и инструмент frida Frida. Далее будет рассказано о нескольких способах детектирования инструмента...
Just for fun: Сколько «живет» iOS до Jailbreak
Привет, Хабр! Наткнулись тут в Википедии на информацию: сколько дней продержалась каждая версия iOS до Jailbreak. В итоге соорудили инфографику just for fun. Читать далее...
Security Week 40: уязвимость в BootROM мобильных устройств Apple
В зависимости от ваших предпочтений к этой новости можно подобрать один из двух заголовков. Либо «серьезная уязвимость обнаружена в мобильных устройствах Apple вплоть до iPhone X», либо «наконец-то придумали новый способ для джейлбрейка iДевайсов (но это не точно)». Насчет джейлбрейка пока и правда...