Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Все блоги / Про интернет 4 апреля 2025 167

Продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI-агентов. В этой статье расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на современные модели, в т.ч. те, которые и ломать не надо. Сравним стойкость разных моделей, а в конце разберем несколько конкурсных задач по взлому AI Web3 агентов.

Первую часть можно найти тут

Источник: Хабрахабр

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Похожие публикации

Редакция Spark.ru: Как составить семантическое ядро сайта

Сбор семантического ядра — один из базовых этапов продвижения проекта. Чтобы улучшить видимость ресурса, нужно проанализировать поисковые запросы определенной тематики и отобрать оптимальные ключевые слова. Правильно составленное семантическое ядро дает возможность лучше понять потенциального

подробнее »

19 марта 2021

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные

подробнее »

30 марта 2025

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

В последние годы мы наблюдаем активный рост популярности LLM-моделей и интереса к их интеграции в Web3-приложения, такие как DAO и dApp-боты или автоматические трейдеры. Представьте: смарт-контракт управляет финансами, а подключённая языковая модель принимает решения, основываясь на анализе

подробнее »

3 апреля 2025

Снятся ли андроидам отечественные датацентры?

Сергей Гордейчик с конца прошлого века интересуется разработкой, белошляпным хакерством, развитием технологий и бизнеса. Работал в РЖД, "Лаборатории Касперского", был CTO и замом гендиректора Positive Technologies. Сейчас увлекается AI, живёт в Дубаи, работает в Абу Даби, преподаёт в барселонском

подробнее »

26 сентября 2019

Шифруй то, шифруй это, или LLM под замком

Здравствуйте, уважаемые читатели Хабра. Чем больше я погружаюсь в LLM, тем больше укрепляюсь во мнении, что сейчас они (LLM) заняли если не самое важное, то уж точно одно из очень значимых мест во всём пантеоне моделей машинного обучения. При этом всё чаще встаёт вопрос шифрования моделей в самом

подробнее »

24 сентября 2024

Тоня Самсонова, «Яндекс.Q»: о травле, трафике и нейросетях в UGC

Roem публикует текстовую версию интервью основательницы The Question и главы «Яндекс.Q» Тони Самсоновой подкасту «Медиасреда». Разговор состоялся в декабре 2019 года. В беседе Тоня рассказала о: Создании нового сервиса на базе TheQuestion и «Яндекс.Знатоков». Том каким будет «Яндекс.Q». Как

подробнее »

11 апреля 2020