

tl;dr: Продолжение разборов состязательных атак на генеративные модели. Разбор семантических атаках (подбор синонимов, построение фраз, эзопов язык), и использование для этого другой LLM модели.
Часть 1: Яндекс.Разврат или анти-этичный ИИ
Читать далееИсточник: Хабрахабр
Источник: HiveTyrant89
Другие материалы на сайте b.Z - Записки о гаджетах, людях и музыке