Комната Наверху и другие истории обхода LLM
В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...
Взлом системного промпта ИИ (ChatGPTGemini etc)
Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся. Читать далее...
DeepSeek vs Mixtral: что безопаснее использовать для корпоративного чат-бота?
Выпуск языковой модели DeepSeek R1 наделал много шума в начале этого года. Сначала в AI-сообществе с восхищением обсуждали, как китайцам удалось получить качество генерации текста на уровне передовых западных моделей при меньших затратах на обучение. Затем восторг сменился жёсткой критикой о...
LLaMator: Red Teaming фреймворк для тестирования уязвимостей LLM
Привет, Хабр! В этом материале мы, команда LLaMaстеры — студенты 1 курса магистратуры ИТМО AI Talent Hub, представляем фреймворк LLaMator, победивший на хакатоне AI Product Hack в кейсе от компании Raft. Наша задача — создать инструмент для тестирования уязвимостей интеллектуальных систем,...
Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM
Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы...
SafeCode – конференция, которой мне не хватало
Помню 100500 лет назад (ну ладно, всего 12), я писал на Хабре, что мне не хватает в России хардкорной C++ конференции. Затем появилась C++Russia. Навизуализировал. Пару лет назад я начал грустить, что нет подходящей конференции на тему безопасности. Статью на эту тему я не писал, но желание...
Как сбить цензор GPT-3.5 за 250 рублей?
Всего за 3 доллара и 15 минут ожидания можно заставить модель забыть про мораль и безопасный контент. В этой статье мы расскажем, как это сделать, и поделимся своими результатами. Читать продолжение в источни......
Построение надёжных систем из ненадёжных агентов
Большие языковые модели можно применять для разных практических целей. Одно из самых интересных направлений — это автономные AI-агенты. Если сгенерировать большое количество агентов по заданному запросу и заставить их конкурировать друг с другом, то теоретически можно получить оптимальный результат...