Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками
Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.
Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.
Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать дальше →
Источник: Хабрахабр
Похожие новости
- PhantomRShell: бэкдор, который маскируется с помощью дизассемблера
- Пентест веба на пальцах: для новичков и слегка отбитых
- Spark_news: Продавцы одежды и техники сокращают площади и переходят на мини форматы магазинов
- Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)
- Поговорим о планировании внедрения DevSecOps
- Реверс — это сканворд. Как я впервые нормально понял Ghidra
- Хайстекс Акура 4.5: Свобода миграции без API, нативный бэкап PostgreSQL и защита от шифровальщиков на уровне S3
- Разработка под Kubernetes: локально всё работает, в проде — нет. Кейс с Tetragon и eBPF
- Налоги, Telegram и абсурд происходящего
- Как стать автором патента на изобретение и получить его за 2,5 месяца