Алгоритмы пост-обработки результатов распознавания текстовых полей

Все блоги / Про интернет 27 апреля 2020 450

(изображение взято отсюда)

Сегодня мы бы хотели вам рассказать о задаче пост-обработки результатов распознавания текстовых полей исходя из априорных знаний о поле. Ранее мы уже писали про метод коррекции полей на основе триграмм, который позволяет исправлять некоторые ошибки распознавания слов, написанных на естественных языках. Однако значительную часть важных документов, в том числе документов, удостоверяющих личность, составляют поля другого характера – даты, номера, VIN-коды автомобилей, номера ИНН и СНИЛС, машинно-читаемые зоны с их контрольными суммами и многое другое. Хотя их нельзя отнести к полям естественного языка, тем не менее у таких полей зачастую существует некоторая, иногда неявная, языковая модель, а значит, для них тоже можно применить некоторые алгоритмы коррекции. В этом посте речь пойдет об двух механизмах пост-обработки результатов распознавания, которые можно применять для большого количества документов и типов полей.
Читать дальше →

Источник: Хабрахабр

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Похожие публикации

Использование оптического распознавания символов в DeviceLock DLP для предотвращения утечек документов

Одна из базовых для DLP-систем задач — это обнаружение в потоке передаваемых данных различных государственных документов, удостоверяющих личность (паспорта, свидетельства о рождении, водительские удостоверения и т.п.), и предотвращение их несанкционированного распространения. Если документы

подробнее »

3 декабря 2018

Голосовые рассылки: Обзор технологий распознавания голоса и способы его применения

Сегодня речь пойдёт о системах распознавания голоса. Не так давно наш сервис запустил в тестовом режиме услугу распознавания речи, которая стала альтернативой классическому IVR-меню. О том, как она работает читайте в конце статьи. А пока мы попросили нашего технологического эксперта провести обзор

подробнее »

5 июля 2017

«Авто.ру» запустил нейросетевой сервис для распознавания автомобилей

Сервис объявлений о продаже автомобилей «Авто.ру» запустил в своих приложениях для iOS и Android функцию распознавания автомобилей. Эта опция позволяет найти марку и модель машины по фотографии, а затем изучить объявления о ней, опубликованные на сайте, рассказали vc.ru в компании.

подробнее »

30 июня 2016

Microsoft добавила в фотоприложение Pix функцию распознавания документов

Приложение Pix для iOS сможет «сканировать» документы, записи на досках и визитные карточки. Об этом рассказали в Microsoft.

подробнее »

14 сентября 2017

Исследователь нашёл открытую базу сервиса распознавания текста Abbyy с сотнями тысяч документов

Компания устранила проблему.

подробнее »

27 августа 2018

Apple хочет перевести Siri на русский язык

Apple хочет обучить своего голосового помощника Siri общаться на русском, арабском, португальском, датском, голландском, норвежском, шведском, тайском и турецком языках. Для этого корпорация уже ищет инженеров-лингвистов. Об этом сообщает Apple Insider. От кандидатов на эту должность требуется не

подробнее »

24 июня 2014