Алгоритмы пост-обработки результатов распознавания текстовых полей
(изображение взято отсюда)
Сегодня мы бы хотели вам рассказать о задаче пост-обработки результатов распознавания текстовых полей исходя из априорных знаний о поле. Ранее мы уже писали про метод коррекции полей на основе триграмм, который позволяет исправлять некоторые ошибки распознавания слов, написанных на естественных языках. Однако значительную часть важных документов, в том числе документов, удостоверяющих личность, составляют поля другого характера – даты, номера, VIN-коды автомобилей, номера ИНН и СНИЛС, машинно-читаемые зоны с их контрольными суммами и многое другое. Хотя их нельзя отнести к полям естественного языка, тем не менее у таких полей зачастую существует некоторая, иногда неявная, языковая модель, а значит, для них тоже можно применить некоторые алгоритмы коррекции. В этом посте речь пойдет об двух механизмах пост-обработки результатов распознавания, которые можно применять для большого количества документов и типов полей.
Читать дальше →
Источник: Хабрахабр
Похожие новости
- Идея — Proof-of-Work «почтовая марка» для email: три заголовка против спама
- Автоматизация криптографических операций: Реализация визуализации электронной подписи в PDF на C#
- Тайные битвы на фронтах ИБ: DLP против стеганографии
- Яндекс запускает биржу телеграм-каналов
- Андрей Терехов и Рейтинг Рунета выпустили чек-лист хорошей рекламной кампании
- Угнать «телегу» за 60 секунд: лайфхаки по противодействию мошенникам от социального инженера
- Giftery: Почему сотрудники саботируют автоматизацию — и как внедрить её без конфликтов
- Безопасная разработка как игра в Dungeons & Dragons
- DOT Digital Agency: Новый облик Очёрского машиностроительного завода
- HackTheBox Labs (Starting Point) — Exploison