Как взломать антиплагиат? — Безопасность и уязвимости NLP -классификаторов. Часть 2
Всем привет! Меня зовут Артём Семенов, я занимаюсь пентестами в компании RTM Group.
В первой части данного материала мы говорили о различных методах классификации текста и разобрались с некоторыми техниками для атаки на классификаторы. Сегодня мы возьмемся за NLP-триггеры и стилистические атаки на NLP-классификаторы. Также мы поговорим о том, как машинный текст может быть обнаружен и как можно защитить классификаторы от атак.
Маскировка стиля
Одним из возможных методов атак при обмане классификаторов является маскировка стиля. Так, пользователь может попытаться имитировать стиль письма человека, чтобы обмануть классификатор. Например, добавить стилистические штрихи к тексту, созданному ИИ, которые могут «очеловечить» его, такие как повторения, грамматические ошибки, неполные предложения и т.д.
Очевидно, что основным недостатком метода является изменение текста. Он будет не схож по стилистике с оригиналом. И здесь отметим, что некоторые языковые модели, включая GPT, можно обнаружить при помощи ряда статистических свойств. Например, распределение вероятностей токенов и энтропия при неопределённости модели в выборе следующего слова. Языковые модели с высокой энтропией менее уверенны в своих предсказаниях. Для этого сегодня используется множество метрик:
Читать далееИсточник: Хабрахабр
Похожие новости
- Почему «витрина достижений» информационной безопасности работает далеко не везде
- ИИ Агенты как новая киберугроза: бизнесы теряют деньги и данные, не понимая почему
- Архитектура PERA для построения промышленной сети
- Telegram Web съел 30% моего 16-ядерного процессора. Расследование странного поведения, или Призрак майнера в браузере
- Настройка межсетевого SSH-доступа в многосегментной сети Cisco и MikroTik в среде GNS3
- Рост продаж на маркетплейсах без демпинга: возможен или нет
- Vitamin.tools: Как быстро и эффективно находить сотрудников или собрать пожертвования через VK Ads: два кейса от клиента Vitamin.tools
- Лебедев Денис: Боты статистики в Telegram: что они умеют, кому подходят
- От BlueBorne до LE Secure: как Bluetooth выжил после самых громких дыр
- Ты не покупатель. Ты — герой мифа