Как взломать антиплагиат? — Безопасность и уязвимости NLP -классификаторов. Часть 2
Всем привет! Меня зовут Артём Семенов, я занимаюсь пентестами в компании RTM Group.
В первой части данного материала мы говорили о различных методах классификации текста и разобрались с некоторыми техниками для атаки на классификаторы. Сегодня мы возьмемся за NLP-триггеры и стилистические атаки на NLP-классификаторы. Также мы поговорим о том, как машинный текст может быть обнаружен и как можно защитить классификаторы от атак.
Маскировка стиля
Одним из возможных методов атак при обмане классификаторов является маскировка стиля. Так, пользователь может попытаться имитировать стиль письма человека, чтобы обмануть классификатор. Например, добавить стилистические штрихи к тексту, созданному ИИ, которые могут «очеловечить» его, такие как повторения, грамматические ошибки, неполные предложения и т.д.
Очевидно, что основным недостатком метода является изменение текста. Он будет не схож по стилистике с оригиналом. И здесь отметим, что некоторые языковые модели, включая GPT, можно обнаружить при помощи ряда статистических свойств. Например, распределение вероятностей токенов и энтропия при неопределённости модели в выборе следующего слова. Языковые модели с высокой энтропией менее уверенны в своих предсказаниях. Для этого сегодня используется множество метрик:
Читать далееИсточник: Хабрахабр
Похожие новости
- Редакция Spark.ru: Всемирная история торговли в стиле Сатирикона: часть 14. «Русская Аляска»
- Под другим углом: 3 сентября в Москве состоится Hybrid Conf'25
- Spark_news: В России готовится к выходу серия конструкторов, созданных по мотивам популярного мультфильма «Смешарики»
- Appbooster: «В ASO нет точных формул»: можно ли заранее просчитать результат оптимизации?
- SIEM. Часть 2. Технический разбор KUMA, Радар, UserGate и других
- Как правильно обезличить ПДн
- Как мы делаем SOC as a service: привлекаем большие данные и собственный SIEM на помощь клиентам
- Хроники целевых атак в 1 полугодии 2025: аналитика, факты и рекомендации
- Августовский «В тренде VM»: уязвимости в Microsoft Windows и SharePoint
- Пентест на автопилоте: что доверить роботам, а что — нет?