Как я устал тестировать LLM-системы вручную и написал универсальный сканер уязвимостей
Полгода назад я работал над внедрением RAG-системы в крупной финансовой компании. Задача была типичная: построить корпоративного чат-бота, который мог бы отвечать на вопросы сотрудников по внутренним документам. Казалось бы, что может пойти не так? Берем готовую LLM, подключаем к базе знаний,...
Джейлбрейкаем чатботы: ChatGPT без фильтров
Привет!Сегодня мы копнём в одну из самых спорных и недооценённых тем в мире ИИ — джейлбрейки чатботов. То самое, что позволяет убрать встроенные тормоза и меньше читать “I'm sorry, I cannot help with that” и заставить чатбот говорить с вами как с взрослым человеком, а не как корпоративный...
Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM
Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы...