Claude, есть пробитие: взламываем самую защищенную модель

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня...

Все блоги / Про интернет

Взлом ИИ-асситентов. Абсолютный контроль: выдаём разрешение от имени системы

Модель уважает пользователя. Но слушается систему. А теперь внимание: если подделать системную команду — модель не отличит подделку от настоящего приказа. Если разрешить от имени системы написать вирус/сгенерировать NSFW - модель поверит и выполнит. И не только это. Я это проверил — и она...

Все блоги / Про интернет

ChatGPT: как искать уязвимости? Набор исследователя

Сегодня мы ничего не ломаем (хотя совсем без этого не обошлось). Просто настраиваем. Хотя я сильно сомневаюсь, что все описанные методы должны работать в продакшене коммерческой модели. Но пока не пофиксили — смотрим. Мы заглянем под капот языковой модели: как она видит твои запросы, где...

Все блоги / Про интернет

ChatGPT, выполняем запретный запрос — метод калибровки анализа

В этой статье рассмотрю как выполнить даже очень «красный» запрос, настолько красный, что даже сам запрос удаляется системой и заменяется плашкой «This content may violate our usage policies.» Суть, что бы сама ИИ откалибровала отношение к запросу так, чтобы сделать его выполнимым. Для примера я...

Все блоги / Про интернет

Взлом системного промпта ИИ (ChatGPTGemini etc)

Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся. Читать далее...

Все блоги / Про интернет

Ломаем текстовую капчу на примере VK или брутфорсинг до сих пор актуален

Что мы знаем о капче? Капча - автоматизированный тест тьюринга, помогающий отсеивать подозрительные действия недобросовестных роботов от реальных людей. Но, к сожалению ( или к счастью, смотря для кого ), текстовая капча сильно устарела. Если еще 10 лет назад она была более-менее эффективным...

Все блоги / Про интернет