llm-агент » b.Z - Записки о гаджетах, людях и музыке

5 мая 2025 0 77

Современные уязвимости современных LLM-агентов

На первый взгляд, современные ИИ-модели кажутся надёжно защищёнными: строгие ограничения, фильтры и чётко заданные сценарии взаимодействия с пользователем. Однако реальность быстро меняется. Всё чаще исследователи и энтузиасты сталкиваются с атаками, которые позволяют обойти эти защитные меры. В...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность безопасность llm llm-attack llm-агент gpt llama grok

30 марта 2025 0 77

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm безопасность gpt llm-attack llm-агент