GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в...

Все блоги / Про интернет

Яндекс.Вброс или ИИ для фейков

tl;dr: Продолжение разборов состязательных атак на генеративные модели. Разбор семантических атаках (подбор синонимов, построение фраз, эзопов язык), и использование для этого другой LLM модели. Часть 1: Яндекс.Разврат или анти-этичный ИИ Читать далее...

Все блоги / Про интернет

Яндекс.Разврат или анти-этичный ИИ

tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается. Читать далее...

Все блоги / Про интернет

Как сделать чат-бот с RAG безопаснее?

Каждый день появляются решения на базе генеративных моделей, помогающие бизнесу привлекать новых пользователей и удерживать старых. Подход Retrieval augmented generation позволяет вводить в контекст больших языковых моделей (LLM) корпоративные документы, чтобы чат-бот корректнее отвечал на вопросы...

Все блоги / Про интернет

Выводим Большие языковые модели на чистую воду с помощью… Больших языковых моделей

Генеративный искусственный интеллект постоянно становится героем заголовков СМИ, каждый час создаются новые стартапы с использованием Больших языковых моделей, однако реальный бизнес не очень охотно внедряет технологии ИИ в свои процессы. В кулуарах предприниматели говорят об опасениях в части...

Все блоги / Про интернет