Сбор данных из DHT (как работают агрегаторы)
После моей прошлой статьи прилетело много фидбэка.Я не эксперт в области торрентов, но благодаря комментариям узнал несколько интересных нюансов. Это вдохновило меня на продолжение предыдущей стати и создания мини-аналога IKnowWhatYouDownload (как оказалось, его можно сделать буквально за пару часов).
Начнем с базы
Разберемся, как работает IKnowWhatYouDownload (и подобные агрегаторы).
Вот что говорят его создатели:
Торрент-файлы попадают в нашу базу данных несколькими способами. Во-первых, мы собираем новинки с популярных торрент-сайтов (как зарубежных, так и российских). Во-вторых, у нас есть компоненты, которые постоянно мониторят DHT-сеть. Если кто-то ищет или анонсирует infohash, мы также добавляем его в базу.
Данные по одному торрент-файлу собираются раз в несколько часов. Чем дольше вы находитесь на раздаче, тем выше вероятность попасть в нашу базу. Данные на сайте обновляются с задержкой в сутки.
Обычно мы решаем другие задачи — отслеживать небольшое количество торрент файлов, получая по ним как можно больше данных.
Как вы понимаете, на сайте идеология другая — получить по большому количеству торрент-файлов как можно больше данных, поэтому применяемые методы могут быть неточными. Да, кроме того, на сайте не отображаются данные старше 4х недель.
Что такое DHT?
DHT (Distributed Hash Table) — это технология, которая используется в торрент-сетях для децентрализованного поиска участников раздачи (пиров) без необходимости подключения к центральному трекеру. Вместо того чтобы полагаться на сервер, DHT позволяет каждому участнику сети хранить и обмениваться информацией о пирах напрямую.
Читать далееИсточник: Хабрахабр
Похожие новости
- Поговорим о планировании внедрения DevSecOps
- Реверс — это сканворд. Как я впервые нормально понял Ghidra
- Хайстекс Акура 4.5: Свобода миграции без API, нативный бэкап PostgreSQL и защита от шифровальщиков на уровне S3
- Разработка под Kubernetes: локально всё работает, в проде — нет. Кейс с Tetragon и eBPF
- Налоги, Telegram и абсурд происходящего
- Как стать автором патента на изобретение и получить его за 2,5 месяца
- Сеть, в которой живут агенты: кто нажал Enter и как это проверить
- Не только про производительность — как балансировщик нагрузки обеспечивает отказоустойчивость
- Инсайдер в системе: как аппаратная блокировка перезаписи защищает данные от собственных сотрудников
- ИИ против ИИ: кто победит в кибербезопасности