Как я устал тестировать LLM-системы вручную и написал универсальный сканер уязвимостей

Полгода назад я работал над внедрением RAG-системы в крупной финансовой компании. Задача была типичная: построить корпоративного чат-бота, который мог бы отвечать на вопросы сотрудников по внутренним документам. Казалось бы, что может пойти не так? Берем готовую LLM, подключаем к базе знаний,...

Все блоги / Про интернет

Джейлбрейкаем чатботы: ChatGPT без фильтров

Привет!Сегодня мы копнём в одну из самых спорных и недооценённых тем в мире ИИ — джейлбрейки чатботов. То самое, что позволяет убрать встроенные тормоза и меньше читать “I'm sorry, I cannot help with that” и заставить чатбот говорить с вами как с взрослым человеком, а не как корпоративный...

Все блоги / Про интернет

Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM

Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы...

Все блоги / Про интернет