Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками
Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.
Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.
Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать дальше →
Источник: Хабрахабр
Похожие новости
- Почему «витрина достижений» информационной безопасности работает далеко не везде
- ИИ Агенты как новая киберугроза: бизнесы теряют деньги и данные, не понимая почему
- Архитектура PERA для построения промышленной сети
- Telegram Web съел 30% моего 16-ядерного процессора. Расследование странного поведения, или Призрак майнера в браузере
- Настройка межсетевого SSH-доступа в многосегментной сети Cisco и MikroTik в среде GNS3
- Рост продаж на маркетплейсах без демпинга: возможен или нет
- Vitamin.tools: Как быстро и эффективно находить сотрудников или собрать пожертвования через VK Ads: два кейса от клиента Vitamin.tools
- Лебедев Денис: Боты статистики в Telegram: что они умеют, кому подходят
- От BlueBorne до LE Secure: как Bluetooth выжил после самых громких дыр
- Ты не покупатель. Ты — герой мифа