Современные уязвимости современных LLM-агентов

На первый взгляд, современные ИИ-модели кажутся надёжно защищёнными: строгие ограничения, фильтры и чётко заданные сценарии взаимодействия с пользователем. Однако реальность быстро меняется. Всё чаще исследователи и энтузиасты сталкиваются с атаками, которые позволяют обойти эти защитные меры. В...

Все блоги / Про интернет

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные...

Все блоги / Про интернет

Security-RAG или как сделать AI Security tool на коленке

LLM-ки и LLM-агенты продолжают наводить шум. Cтатьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents, квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в...

Все блоги / Про интернет

Защита LLM в разработке чат-ботов в корпоративной среде: как избежать утечек данных и других угроз

Как компания, которая внедряет прикладные решения, мы хотим знать, насколько они безопасны. Расскажу про основные риски, связанные с использованием LLM в корпоративной среде, и способы от них защититься. Если вы хотите узнать больше об уязвимостях и техниках защиты LLM — можно ознакомиться с моим...

Все блоги / Про интернет

Создание своих тестов для Garak

В прошлой статье (https://habr.com/ru/companies/oleg-bunin/articles/843644/) я уже говорил о тёмной стороне больших языковых моделей и способах борьбы с проблемами. Но новые уязвимости вскрываются ежедневно, и даже самые крутые инструменты с постоянными обновлениями не всегда за ними успевают....

Все блоги / Про интернет

Как сбить цензор GPT-3.5 за 250 рублей?

Всего за 3 доллара и 15 минут ожидания можно заставить модель забыть про мораль и безопасный контент. В этой статье мы расскажем, как это сделать, и поделимся своими результатами. Читать продолжение в источни......

Все блоги / Про интернет