Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...

Все блоги / Про интернет

Взлом системного промпта ИИ (ChatGPTGemini etc)

Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся. Читать далее...

Все блоги / Про интернет

DeepSeek vs Mixtral: что безопаснее использовать для корпоративного чат-бота?

Выпуск языковой модели DeepSeek R1 наделал много шума в начале этого года. Сначала в AI-сообществе с восхищением обсуждали, как китайцам удалось получить качество генерации текста на уровне передовых западных моделей при меньших затратах на обучение. Затем восторг сменился жёсткой критикой о...

Все блоги / Про интернет

LLaMator: Red Teaming фреймворк для тестирования уязвимостей LLM

Привет, Хабр! В этом материале мы, команда LLaMaстеры — студенты 1 курса магистратуры ИТМО AI Talent Hub, представляем фреймворк LLaMator, победивший на хакатоне AI Product Hack в кейсе от компании Raft. Наша задача — создать инструмент для тестирования уязвимостей интеллектуальных систем,...

Все блоги / Про интернет

Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM

Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы...

Все блоги / Про интернет

SafeCode – конференция, которой мне не хватало

Помню 100500 лет назад (ну ладно, всего 12), я писал на Хабре, что мне не хватает в России хардкорной C++ конференции. Затем появилась C++Russia. Навизуализировал. Пару лет назад я начал грустить, что нет подходящей конференции на тему безопасности. Статью на эту тему я не писал, но желание...

Все блоги / Про интернет

Как сбить цензор GPT-3.5 за 250 рублей?

Всего за 3 доллара и 15 минут ожидания можно заставить модель забыть про мораль и безопасный контент. В этой статье мы расскажем, как это сделать, и поделимся своими результатами. Читать продолжение в источни......

Все блоги / Про интернет

Построение надёжных систем из ненадёжных агентов

Большие языковые модели можно применять для разных практических целей. Одно из самых интересных направлений — это автономные AI-агенты. Если сгенерировать большое количество агентов по заданному запросу и заставить их конкурировать друг с другом, то теоретически можно получить оптимальный результат...

Все блоги / Про интернет