Почему «утекают» данные в больших языковых моделях. Часть 2

Добрый день, уважаемые читатели Хабра. Продолжаем разбираться в теме «утечки» конфиденциальных данных на примере больших языковых моделей и совершаемых для этого атак. В первой статье мы затронули такие механизмы атаки как Special Characters Attack (SCA), Leakage of Test Data in Training Data (LTDAT), Leakage in Prompt Atack (PLeak). Они несут угрозу для генеративных моделей. И мы показали, как можно маскировать данные для минимизации ущерба.

В этот раз мы затронем такую обширную проблему, как «отравление» обучающих данных (Data Poisoning) и возможность реализации «утечек». Уже известны многочисленные статьи, в которых разбирают атаки, когда входными данными являются изображения. Базовое объяснение существующим подходам даётся здесь и здесь, и говорится что они, как правило, служат бэкдорами и предназначены для повышения привилегий в системе.

Источник: Хабрахабр

Перейти на сайт

Почему «утекают» данные в больших языковых моделях. Часть 2

Похожие новости