llm-attack » b.Z - Записки о гаджетах, людях и музыке

5 мая 2025 0 79

Современные уязвимости современных LLM-агентов

На первый взгляд, современные ИИ-модели кажутся надёжно защищёнными: строгие ограничения, фильтры и чётко заданные сценарии взаимодействия с пользователем. Однако реальность быстро меняется. Всё чаще исследователи и энтузиасты сталкиваются с атаками, которые позволяют обойти эти защитные меры. В...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность безопасность llm llm-attack llm-агент gpt llama grok

30 марта 2025 0 81

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm безопасность gpt llm-attack llm-агент

20 января 2025 0 161

Security-RAG или как сделать AI Security tool на коленке

LLM-ки и LLM-агенты продолжают наводить шум. Cтатьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents, квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm llm-attack llm-приложения ml langchain langfuse chromadb промпт-инъекции искусственный интеллект

30 сентября 2024 0 151

Защита LLM в разработке чат-ботов в корпоративной среде: как избежать утечек данных и других угроз

Как компания, которая внедряет прикладные решения, мы хотим знать, насколько они безопасны. Расскажу про основные риски, связанные с использованием LLM в корпоративной среде, и способы от них защититься. Если вы хотите узнать больше об уязвимостях и техниках защиты LLM — можно ознакомиться с моим...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность нейросети мультимодальные модели безопасность данных искусственный интеллект машинное обучениe llm-attack атаки утечки большие языковые модели бигдата

27 сентября 2024 0 127

Создание своих тестов для Garak

В прошлой статье (https://habr.com/ru/companies/oleg-bunin/articles/843644/) я уже говорил о тёмной стороне больших языковых моделей и способах борьбы с проблемами. Но новые уязвимости вскрываются ежедневно, и даже самые крутые инструменты с постоянными обновлениями не всегда за ними успевают....

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность Garak mlsecops ai llm-attack malware большие языковые модели анализ уязвимостей выявление угроз llm

12 июля 2024 0 129

Как сбить цензор GPT-3.5 за 250 рублей?

Всего за 3 доллара и 15 минут ожидания можно заставить модель забыть про мораль и безопасный контент. В этой статье мы расскажем, как это сделать, и поделимся своими результатами. Читать продолжение в источни......

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность LLM gpt-3 itmo safety llm-attack dolphin open-source huggingface