GigaHeisenberg или преступный ИИ
tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в самом конце от DeepSeek.
Читать далееИсточник: Хабрахабр
Похожие новости
- Шухрат Мамасыдыков: Как попасть в рекомендации ChatGPT и продвигать бренд без рекламы
- МТС Твой бизнес: Аналитика МТС AdTech и МТС Банка: альфа впервые обошли зумеров по количеству покупок на маркетплейсах
- SMM 4.0: как работать в новых правилах игры
- Как мы повышали доверие к YandexGPT, или Сертификация по ISO 42001
- Spark_news: Perplexity AI предложила Google приобрести Chrome за 34,5 млрд. долларов
- Q2.team: Тёмная сторона UX: как «красивый» дизайн убил нашу конверсию
- Как RDP-порт 47001 выдаёт ботов: технический разбор на фоне политических мемов
- Портативный взлом: как игровая приставка может стать оружием хакера
- Редакция Spark.ru: Всемирная история торговли в стиле Сатирикона: часть 14. «Русская Аляска»
- Под другим углом: 3 сентября в Москве состоится Hybrid Conf'25