Attaque a-la russe: атака с помощью промт-инъекций русскоязычных моделей семейства Saiga2

Насколько хорошо защищены открытые большие языковые модели от генерации вредоносного контента? Рассмотрим механизмы атаки с промт-инъекцией на большие языковые модели, а так же рекомендации по защите от них.