Один подход к обнаружению веб-ботов, или Как мы использовали машинное обучение для классификации ботов
Объем трафика в интернете растет (особенно в последние месяцы, когда мы все оказались на удаленке и многие перевели свои активности в онлайн). Увеличивается и число автоматических средств взаимодействия с контентом на веб-сайтах и, как следствие, все большую актуальность получает фильтрация нежелательной автоматизированной активности. Сегодня до 50% интернет-активности генерится автоматически с помощью так называемых веб-ботов (или просто ботов). И в данном случае речь о любой активной в сети программе, вне зависимости от целей ее использования. Обычно такие программы выполняют повторяющиеся, простые в автоматизации действия. Например, поисковые движки Google или Yandex используют краулеры для периодического сбора контента и индексации страниц в интернете.
Итак, есть два типа веб-ботов — легитимные и зловредные. К легитимным можно отнести поисковые движки, RSS-ридеры. Примеры зловредных веб-ботов ― сканеры уязвимостей, скрейперы, спамеры, боты для DDoS-атак, трояны для мошенничества с платежными картами. После определения типа веб-бота к нему могут быть применены различные политики. Если бот легитимный, можно уменьшить приоритет его запросов к серверу или снизить уровень доступа к определенным ресурсам. Если бот определен как зловредный, можно его заблокировать или отправить в песочницу для дальнейшего анализа. Обнаруживать, анализировать и классифицировать веб-боты важно, так как они могут нанести вред: например, вызвать утечку важных для бизнеса данных. А также это снизит нагрузку на сервер и сократит так называемый шум в трафике, ведь до 66% трафика веб-ботов — это именно зловредный трафик. Читать дальше →
Источник: Хабрахабр
Похожие новости
- Кастомные вордлисты для самых маленьких
- Думаем графами с IPAHound
- Rookee: Как писать FAQ, который будет процитирован ИИ
- Веб-интегратор “Компот”: Письмо от бывшего 💌 Почему реактивация клиентов не работает
- Broken Authentication (Skills Assessment) — HTB Academy
- Защищаем личные номера телефонов на маркетплейсах: соединяем клиента и исполнителя
- Spark_news: Минцифры выделило 40 млрд рублей на развитие видеоплатформы VK
- Теряет ли GitHub доверие индустрии?
- Почему ваша LLM-платформа — следующая цель: аудит безопасности AI-сервиса изнутри
- [Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать