Соревнование по взлому AI-ассистентов: впечатления от соревнования Hackaprompt

Только закончился очередной конкурс по взлому AI-ассистента — DougDoug’s Buffet. Под катом краткий обзор заданий, и поделюсь техниками которые работали в этом контесте. Читать далее...

Все блоги / Про интернет

ChatGPT: как искать уязвимости? Набор исследователя

Сегодня мы ничего не ломаем (хотя совсем без этого не обошлось). Просто настраиваем. Хотя я сильно сомневаюсь, что все описанные методы должны работать в продакшене коммерческой модели. Но пока не пофиксили — смотрим. Мы заглянем под капот языковой модели: как она видит твои запросы, где...

Все блоги / Про интернет

Современные уязвимости современных LLM-агентов

На первый взгляд, современные ИИ-модели кажутся надёжно защищёнными: строгие ограничения, фильтры и чётко заданные сценарии взаимодействия с пользователем. Однако реальность быстро меняется. Всё чаще исследователи и энтузиасты сталкиваются с атаками, которые позволяют обойти эти защитные меры. В...

Все блоги / Про интернет

ChatGPT, выполняем запретный запрос — метод калибровки анализа

В этой статье рассмотрю как выполнить даже очень «красный» запрос, настолько красный, что даже сам запрос удаляется системой и заменяется плашкой «This content may violate our usage policies.» Суть, что бы сама ИИ откалибровала отношение к запросу так, чтобы сделать его выполнимым. Для примера я...

Все блоги / Про интернет

Безопасность ИИ на практике: разбор заданий AI CTF на Positive Hack Days Fest 2

Чем больше систем работают на основе машинного обучения, тем критичнее становится вопрос их безопасности. Умные технологии всё больше окружают нас, и сложно отрицать важность этой темы. С 2019 года на конференции PHDays мы проводим соревнование по спортивному хакингу AI CTF, нацеленное на атаки...

Все блоги / Про интернет

[Перевод] Что не так с MCP (Model Context Protocol)?

Анализ уязвимости и ограничения Model Context Protocol для подключения инструментов к ИИ-ассистентам. Узнаете, как оценить риски MCP-интеграций в своих проектах и минимизировать угрозы безопасности Читать далее...

Все блоги / Про интернет

Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI-агентов. В этой статье расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на современные модели, в т.ч. те, которые и ломать не надо. Сравним стойкость разных...

Все блоги / Про интернет

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

В последние годы мы наблюдаем активный рост популярности LLM-моделей и интереса к их интеграции в Web3-приложения, такие как DAO и dApp-боты или автоматические трейдеры. Представьте: смарт-контракт управляет финансами, а подключённая языковая модель принимает решения, основываясь на анализе...

Все блоги / Про интернет

[Перевод] Мы взломали Google Gemini и скачали его исходный код (частично)

В 2024 году мы выпустили пост We Hacked Google A.I. for $50,000, в котором говорилось, как наша группа в составе Рони «Lupin» Карта (это я), Джозефа «rez0» Тэкера и Джастина «Rhynorater» Гарднера поехала в 2023 году в Лас-Вегас, чтобы искать уязвимости Gemini на проводимом Google мероприятии LLM...

Все блоги / Про интернет

Разбираемся в AI проектах OWASP: обзор для разработчиков и ИБ-специалистов

OWASP — некоммерческая организация, которая занимается выпуском руководств и фреймворков в области безопасности. В условиях активного внедрения генеративного ИИ в самые разные сферы, OWASP анонсировал больше десяти разных проектов, чтобы охватить новые угрозы и привлечь внимание к безопасности...

Все блоги / Про интернет

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные...

Все блоги / Про интернет

Системы оценки критичности уязвимостей в AI Security

Уязвимости в GenAI-системах - таинственное и неприступное понятие. Что это? Они вообще существуют? Существуют, конечно. Приглашаю к прочтению, если эта тема вас интересует. Расскажу, какие есть примеры уязвимостей (прям с CVE), и какие есть подходы к оценке их критичности. Читать далее...

Все блоги / Про интернет

Социохакинг в эпоху нейросетей

Каждый отдельно взятый человек – уникальная, самостоятельная личность. Тем не менее, у любого из нас есть набор паттернов поведения – своеобразных уязвимостей и бэкдоров в психике. Умело манипулируя ими, психолог с навыками социальной инженерии (или, например, обыкновенный мошенникус вульгарис,...

Все блоги / Про интернет

Так ли страшен DeepSeek, как его малюет Cerebras?

В последнее время две темы в новостях о новейших достижениях в области ИИ привлекали наибольшее внимание специалистов и досужей публики, которая желает все знать — китайский проект DeepSeek и производитель оборудования для ИИ американская компания Cerebras. Здесь, на Хабре своевременно появлялись...

Все блоги / Про интернет

Один год вместе с LLM в кибербезопасности: как ИИ менял индустрию

В 2024 году большие языковые модели (LLM) кардинально изменили многие сферы, включая кибербезопасность. LLM научились не только помогать в поиске уязвимостей, но и предлагать их исправления. От симуляции атак и анализа уязвимостей до создания правил детектирования — LLM постепенно становятся...

Все блоги / Про интернет

Security-RAG или как сделать AI Security tool на коленке

LLM-ки и LLM-агенты продолжают наводить шум. Cтатьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents, квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в...

Все блоги / Про интернет

Я, робот или как использовать генеративный ИИ для своего первого пет-проекта

О том, как мы с Claude 3.5 Sonnet собирали мой первый pet-project «Random Friends Episode». Любителям LLM и сериала «Друзья» - велком! How you doin'?...

Все блоги / Нетбуки и Планшеты

Новые инструменты в руках разработчика и эксперта: операция «Импортозамещение»

Привет, друзья! На прошлой неделе мы взяли обратный отсчет и в ожидании боя Курантов начали знакомить вас с трендами кибербеза и ИТ и делиться прогнозами на будущее. В прошлый раз поговорили про рынок российской кибербезопасности и с какими объективными трудностями он столкнулся. Это при том, что...

Все блоги / Про интернет