Текстовая CAPTCHA в 2022
В этой статье я попробую пройти весь путь в распознавании text-based CAPTCHA, от эвристик до полностью автоматических систем распознавания. Попробую проанализировать, жива ли еще капча(речь про текстовую), или пора ей на покой.
Впервые текстовая капча(text-based CAPTCHA), дальше я ее буду называть просто капча, использовалась в поисковике AltaVista, это был 1997 год, она предотвращала автоматическое добавление URL в поисковую систему. В те годы это была надежная защита от ботов, но прогресс не стоял на месте, и эту защиту начали обходить, используя доступные на то время OCR(например, FineReader).
Капча начала усложняться, в неё добавляли небольшой шум, искажения, чтобы распространенные OCR не могли распознать текст. Тогда начали появляться написанные под конкретные капчи OCR, что требовало дополнительных затрат и знаний у атакующей стороны. И от разработчиков капчей требовалось понимание, в чем сейчас трудности у атакующего, и какие искажения нужно внести, чтобы было сложно автоматизировать распознавание капчи. Часто из-за непонимания, как работает OCR, вносились искажения, которые больше создавали проблем человеку, чем машине. OCR для разных типов капч писались с использованием эвристик, и одним из сложных этапов была сегментация капчи на отдельные символы, которые потом можно было легко распознать с помощью тех же CNN(например LeNet-5), да и SVM покажут неплохой результат даже на сырых пикселях.
В качестве объекта распознавания возьму капчу Яндекса с сайта Yandex.com. На русскоязычной версии сайта капчи немного сложнее из-за того, что используются как русские, так и английские слова.
Читать далееИсточник: Хабрахабр
Похожие новости
- [Перевод] Как забытый парсер ссылок привел к XSS на Reddit: Уязвимость на $5000, которая скрывалась в редакторе постов Reddit
- AlinaTen: Сделка между OpenAI и Windsurf сорвалась — глава стартапа уходит в Google
- Kubernetes на базе Deckhouse в облаке Linx Cloud: встроенный мониторинг, безопасность и управление сертификатами
- Без(д)воз(д)мездно, то есть даром
- Настраиваем роутер и WiFi с VLAN в тоннель
- Новости кибербезопасности за неделю с 7 по 13 июля 2025
- Vladimir: TSMC может понести убытки из-за возможных пошлин США на тайваньские чипы
- VLESS+Reality и Multi-hop: Архитектура VPN-цепочки для нового поколения блокировок
- Laravel: электронная подпись на сервере с PDF визуализацией
- Perplexity запускает Comet — собственный AI-браузер, бросающий вызов Google