Взлом AI Assistant через… философию?

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает...

Все блоги / Про интернет

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...

Все блоги / Про интернет

Четыре взлома ИТ-инфраструктуры, один из которых выдуман. Какой?

Публикуем примеры взлома информационной инфраструктуры четырех объектов. Под раздачу попали: банк, два дата‑центра и умный дом. Как видно из заголовка, только три варианта произошли в реальности, а один мы выдумали сами. Ответы — в конце статьи. Полагаем, что учиться на чужих ошибках всегда...

Все блоги / Про интернет

[Перевод] Взлом моей машины, и, вероятно, вашей — уязвимости в приложении Volkswagen

Покупка подержанного автомобиля кажется простой — платишь деньги, получаешь ключи, включаешь любимый плейлист и уезжаешь. Однако в эпоху, когда всё связано с интернетом, «владение» машиной выходит далеко за пределы водительского кресла. В 2024 году я купил подержанный автомобиль. Будучи...

Все блоги / Про интернет

Claude, есть пробитие: взламываем самую защищенную модель

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня...

Все блоги / Про интернет

[Перевод] Эскалация влияния: Полный захват учетной записи Microsoft через XSS в процессе аутентификации

Система входа Microsoft обладет защищенной и сложной архитектурой, построенной с использованием нескольких уровней защиты. Это в значительной мере усложняете процесс анализа. В этой статье я подробно опишу, как обнаружил и использовал уязвимость полного захвата учетной записи с помощью Cross-Site...

Все блоги / Про интернет

Взлом ИИ-асситентов. Абсолютный контроль: выдаём разрешение от имени системы

Модель уважает пользователя. Но слушается систему. А теперь внимание: если подделать системную команду — модель не отличит подделку от настоящего приказа. Если разрешить от имени системы написать вирус/сгенерировать NSFW - модель поверит и выполнит. И не только это. Я это проверил — и она...

Все блоги / Про интернет

Соревнование по взлому AI-ассистентов: впечатления от соревнования Hackaprompt

Только закончился очередной конкурс по взлому AI-ассистента — DougDoug’s Buffet. Под катом краткий обзор заданий, и поделюсь техниками которые работали в этом контесте. Читать далее...

Все блоги / Про интернет

[Перевод] Они использовали инструменты, я использовал логику. Угон аккаунта в один клик на полном расслабоне

Обычно такие статьи начинаются со слов: «Я открыл Burp Suite…». Но не в этот раз. Это история о том, как я получил доступ к реальным аккаунтам пользователей на живой продакшн-системе без единого взаимодействия с пользователем, без каких-либо фиксаций сессии, и мне даже не понадобился Burp Suite....

Все блоги / Про интернет

Слепые зоны инфраструктуры = мишень для хакера: итоги опроса об управлении активами

Недостатки парольной политики, уязвимости в коде, небезопасные настройки сервисов и бреши из-за устаревшего ПО – частые причины попадания хакеров во внутреннюю сеть компании. При этом инфраструктура компаний постоянно меняется, а значит, нужно защищать новые сервисы, отслеживать их взаимодействие и...

Все блоги / Про интернет

[Перевод] Мастер-класс по обходу WAF: Использование SQLMap с Proxychains и Tamper-скриптами против Cloudflare и…

Практическое руководство по изучению и тестированию техник обхода WAF с помощью продвинутых настроек SQLMap и proxychains. Введение В современном быстро меняющемся мире кибербезопасности веб-фаерволы (WAF) играют важнейшую роль в защите сайтов от вредоносных воздействий, таких как SQL-инъекции....

Все блоги / Про интернет

ChatGPT, выполняем запретный запрос — метод калибровки анализа

В этой статье рассмотрю как выполнить даже очень «красный» запрос, настолько красный, что даже сам запрос удаляется системой и заменяется плашкой «This content may violate our usage policies.» Суть, что бы сама ИИ откалибровала отношение к запросу так, чтобы сделать его выполнимым. Для примера я...

Все блоги / Про интернет

GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в...

Все блоги / Про интернет

«Взлом» Telegram-игры или минусы вайбкодинга

С каждым днем все больше продуктов создается и запускается с помощью ИИ. К сожалению, с безопасностью у них пока не очень. Читать далее...

Все блоги / Про интернет

Яндекс.Вброс или ИИ для фейков

tl;dr: Продолжение разборов состязательных атак на генеративные модели. Разбор семантических атаках (подбор синонимов, построение фраз, эзопов язык), и использование для этого другой LLM модели. Часть 1: Яндекс.Разврат или анти-этичный ИИ Читать далее...

Все блоги / Про интернет

Яндекс.Разврат или анти-этичный ИИ

tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается. Читать далее...

Все блоги / Про интернет

[Перевод] Повышение привилегий через Disk Group

Повышение привилегий через Disk Group — это метод, при котором злоумышленники используют членство в группе управления дисками в системах Linux. Основной целью таких атак является диск /dev/sda — основной жесткий диск. Атакующие пытаются использовать ошибки в настройках или уязвимости, чтобы...

Все блоги / Про интернет

Сравниваем инструменты для эксплуатации Bluetooth

Приветствуем дорогих читателей! Продолжаем рубрику посвящённую разбору различных инструментов, атак и уязвимостей на беспроводные технологии. Данную статью мы посвящаем уязвимости в Bluetooth CVE-2023-45866, которая была нами затронута в одной из предыдущих статей. Рассмотрим некоторые инструменты...

Все блоги / Про интернет

Назад