Как взломать антиплагиат? — Безопасность и уязвимости NLP -классификаторов. Часть 2
Всем привет! Меня зовут Артём Семенов, я занимаюсь пентестами в компании RTM Group.
В первой части данного материала мы говорили о различных методах классификации текста и разобрались с некоторыми техниками для атаки на классификаторы. Сегодня мы возьмемся за NLP-триггеры и стилистические атаки на NLP-классификаторы. Также мы поговорим о том, как машинный текст может быть обнаружен и как можно защитить классификаторы от атак.
Маскировка стиля
Одним из возможных методов атак при обмане классификаторов является маскировка стиля. Так, пользователь может попытаться имитировать стиль письма человека, чтобы обмануть классификатор. Например, добавить стилистические штрихи к тексту, созданному ИИ, которые могут «очеловечить» его, такие как повторения, грамматические ошибки, неполные предложения и т.д.
Очевидно, что основным недостатком метода является изменение текста. Он будет не схож по стилистике с оригиналом. И здесь отметим, что некоторые языковые модели, включая GPT, можно обнаружить при помощи ряда статистических свойств. Например, распределение вероятностей токенов и энтропия при неопределённости модели в выборе следующего слова. Языковые модели с высокой энтропией менее уверенны в своих предсказаниях. Для этого сегодня используется множество метрик:
Читать далееИсточник: Хабрахабр
Похожие новости
- Безопасность приложений: инструменты и практики для Java-разработчиков
- Как технологические гиганты переосмысливают кибербезопасность в эпоху ИИ-агентов
- Агентство мобильной разработки InstaDev: «Быстро, дёшево, качественно»: Почему заказчики не могут получить всё сразу - и чем это оборачивается
- Spark_news: «Авито» направит свыше 1 млрд. рублей на финансирование собственного научно-исследовательского подразделения
- Карты, деньги, два клика: как превратить Яндекс Карты в главный источник клиентов в 2025 году
- Внедрение шеллкода в Microsoft Office, или как злоумышленники эксплуатируют старую уязвимость в новых атаках
- Шухрат Мамасыдыков: Как попасть в рекомендации ChatGPT и продвигать бренд без рекламы
- МТС Твой бизнес: Аналитика МТС AdTech и МТС Банка: альфа впервые обошли зумеров по количеству покупок на маркетплейсах
- SMM 4.0: как работать в новых правилах игры
- Как мы повышали доверие к YandexGPT, или Сертификация по ISO 42001