LLM » b.Z - Записки о гаджетах, людях и музыке

19 июня 2025 0 38

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM

Представьте, что вы управляете колл-центром и решили внедрить открытое LLM (большую языковую модель) для автоматизации общения. Всё работает отлично — до того момента, когда мошенник шепчет странную фразу, и внезапно модель начинает отправлять данные ваших клиентов на вредоносный сервер. Звучит как...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM backdoor

3 июня 2025 0 38

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Claude взлом jailbreak LLM

17 мая 2025 0 36

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM prompt injection Pangea jailbreak owasp top 10 llm

1 мая 2025 0 99

Взлом системного промпта ИИ (ChatGPTGemini etc)

Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся. Читать далее...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM chatgpt исскуственный интеллект ии

5 февраля 2025 0 159

DeepSeek vs Mixtral: что безопаснее использовать для корпоративного чат-бота?

Выпуск языковой модели DeepSeek R1 наделал много шума в начале этого года. Сначала в AI-сообществе с восхищением обсуждали, как китайцам удалось получить качество генерации текста на уровне передовых западных моделей при меньших затратах на обучение. Затем восторг сменился жёсткой критикой о...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM mixtral deepseek RAG AI RedTeaming AI Security

18 октября 2024 0 109

LLaMator: Red Teaming фреймворк для тестирования уязвимостей LLM

Привет, Хабр! В этом материале мы, команда LLaMaстеры — студенты 1 курса магистратуры ИТМО AI Talent Hub, представляем фреймворк LLaMator, победивший на хакатоне AI Product Hack в кейсе от компании Raft. Наша задача — создать инструмент для тестирования уязвимостей интеллектуальных систем,...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Уязвимости LLM LLM Чат-боты red teaming Промт-инъекции джейлбрейкинг framework

8 октября 2024 0 118

Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM

Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность атака уклонения LLM большая языковая модель

5 октября 2024 0 151

SafeCode – конференция, которой мне не хватало

Помню 100500 лет назад (ну ладно, всего 12), я писал на Хабре, что мне не хватает в России хардкорной C++ конференции. Затем появилась C++Russia. Навизуализировал. Пару лет назад я начал грустить, что нет подходящей конференции на тему безопасности. Статью на эту тему я не писал, но желание...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность c++russia safecode LLM Yappi Days конференции информационная безопасность phdays

12 июля 2024 0 130

Как сбить цензор GPT-3.5 за 250 рублей?

Всего за 3 доллара и 15 минут ожидания можно заставить модель забыть про мораль и безопасный контент. В этой статье мы расскажем, как это сделать, и поделимся своими результатами. Читать продолжение в источни......

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM gpt-3 itmo safety llm-attack dolphin open-source huggingface

16 июня 2024 0 125

Построение надёжных систем из ненадёжных агентов

Большие языковые модели можно применять для разных практических целей. Одно из самых интересных направлений — это автономные AI-агенты. Если сгенерировать большое количество агентов по заданному запросу и заставить их конкурировать друг с другом, то теоретически можно получить оптимальный результат...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность агенты overkiLLM ollama LLM DAG DAGWorks Burr AI-агенты надёжность Retrieval Augmented Generation RAG Instructor prompt engineering openllmetry openinference OpenTelemetry pgvector RAGatouille