Алгоритмы пост-обработки результатов распознавания текстовых полей
(изображение взято отсюда)
Сегодня мы бы хотели вам рассказать о задаче пост-обработки результатов распознавания текстовых полей исходя из априорных знаний о поле. Ранее мы уже писали про метод коррекции полей на основе триграмм, который позволяет исправлять некоторые ошибки распознавания слов, написанных на естественных языках. Однако значительную часть важных документов, в том числе документов, удостоверяющих личность, составляют поля другого характера – даты, номера, VIN-коды автомобилей, номера ИНН и СНИЛС, машинно-читаемые зоны с их контрольными суммами и многое другое. Хотя их нельзя отнести к полям естественного языка, тем не менее у таких полей зачастую существует некоторая, иногда неявная, языковая модель, а значит, для них тоже можно применить некоторые алгоритмы коррекции. В этом посте речь пойдет об двух механизмах пост-обработки результатов распознавания, которые можно применять для большого количества документов и типов полей.
Читать дальше →
Источник: Хабрахабр
Похожие новости
- Выкрутили автоматизацию на максимум: с чем кроме инвентаризации помог переход на NetBox
- Aisha: Как использование ИИ в переписках с клиентами позволило на 32% увеличить кол-во лидов на покупку квартир в новостройке
- Spark_news: Т-Технологии стали основным владельцем «Точки», выкупив 64- процентную долю
- Spark_news: Ozon fresh и «Ашан» запустили совместный бренд готовой еды
- Нужна новая стратегия: как сегодняшние киберугрозы меняют подходы к управлению доступом
- Steppo: Как Steppo меняет подход к он-бордингу пользователей и сотрудников
- Дисклеймеры в аудиорекламе не выполняют свою функцию
- Доходы фрилансеров за пределами России выросли в среднем на 14%
- Зачем бизнесу E2EE и почему без него сегодня совсем нельзя работать
- Настоящая пекарня: Digital-стратегия для франчайзи: как сделать из пекарни онлайн-магнит и обогнать конкурентов