Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)
В статьях2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так.
Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о началеконце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию.
При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее.
Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API.
Возможны три варианта.
Читать далееИсточник: Хабрахабр
Похожие новости
- PhantomRShell: бэкдор, который маскируется с помощью дизассемблера
- Пентест веба на пальцах: для новичков и слегка отбитых
- Spark_news: Продавцы одежды и техники сокращают площади и переходят на мини форматы магазинов
- Поговорим о планировании внедрения DevSecOps
- Реверс — это сканворд. Как я впервые нормально понял Ghidra
- Хайстекс Акура 4.5: Свобода миграции без API, нативный бэкап PostgreSQL и защита от шифровальщиков на уровне S3
- Разработка под Kubernetes: локально всё работает, в проде — нет. Кейс с Tetragon и eBPF
- Налоги, Telegram и абсурд происходящего
- Как стать автором патента на изобретение и получить его за 2,5 месяца
- Сеть, в которой живут агенты: кто нажал Enter и как это проверить