С ростом интереса к OCR и машинному обучению все больше и больше владельцев бизнеса ищут способы применить эту убийственную комбинацию для оптимизации своих бизнес-процессов, и если вы один из них, эта статья для вас.

Давайте узнаем больше о том, что такое OCR, чем OCR на основе машинного обучения отличается от оригинальной технологии и как ее можно использовать в бизнесе.

Что такое OCR и как это работает?

Оптическое распознавание символов (OCR), также известное как технология распознавания текста, преобразует любое изображение, содержащее письменный текст, в машиночитаемые текстовые данные. OCR позволяет быстро и автоматически оцифровывать документ без необходимости ручного ввода данных. Вот почему OCR обычно используется для оптимизации и автоматизации бизнес-процессов. Результаты OCR в дальнейшем используются для редактирования электронных документов и компактного хранения данных, а также составляют основу для когнитивных вычислений, машинного перевода и технологий преобразования текста в речь.

В зависимости от решаемых задач различают различные виды OCR:

  • Интеллектуальное распознавание слов (IWR) используется для распознавания неограниченных рукописных слов вместо распознавания отдельных символов.
  • Интеллектуальное распознавание символов (ICR) — это более продвинутая форма OCR, основанная на обновлении алгоритмов для сбора большего количества данных о вариациях символов, напечатанных вручную.
  • Оптическое распознавание слов (OWR) сканирует машинописный текст слово за словом.
  • Оптическое распознавание меток (OMR) используется для идентификации информации, которую люди отмечают в опросах, тестах и ​​т. д.

Давайте узнаем, как работает OCR. Функционирование традиционной системы оптического распознавания символов состоит из трех этапов: предварительная обработка изображения, распознавание символов, постобработка.

ШАГ 1. ПРОВЕРКА ТИПА ДОКУМЕНТА И ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ИЗОБРАЖЕНИЯ

Основная проблема распознавания текста заключается в том, что каждый шаблон документа имеет собственный набор сущностей, значений и расположение сущностей в документе. Чтобы программное обеспечение OCR работало точно, оно должно уметь идентифицировать различные типы документов и запускать правильный предопределенный конвейер на основе этого. Например, документы PDF могут содержать или не содержать текстовый слой. Если PDF-файл не содержит текстовый слой, мы должны обрабатывать его иначе, чем если бы он был.

После выбора правильного пайплайна изображение попадает на этап предварительной обработки. Это этап подготовки, который влияет на результаты. Предварительная обработка изображения помогает удалить шум изображения и увеличить контраст между фоном и текстом, что поможет улучшить распознавание текста. На этом этапе программа OCR преобразует документ в черно-белую версию, а затем анализирует его на наличие светлых и темных областей. Светлые области идентифицируются как фон, а темные области идентифицируются как символы, подлежащие обработке.

ШАГ 2. РАСПОЗНАВАНИЕ ХАРАКТЕРА

С использованием алгоритмов обнаружения признаков и распознавания образов обнаруживается один символ. Затем набор символов собирается в слова и предложения. Символы идентифицируются с использованием алгоритмов распознавания образов или обнаружения признаков.

  • Распознавание образов — это метод, основанный на поиске совпадений между текстом изображения и образцами текста, внедренными в систему в различных шрифтах и ​​форматах. Этот метод лучше всего работает с машинописным шрифтом и плохо работает, когда встречаются новые шрифты, не включенные в систему.
  • Алгоритм обнаружения признаков позволяет распознавать новые символы, применяя правила, касающиеся индивидуальных особенностей персонажа. Такие функции могут включать количество наклонных линий, пересекающихся линий или кривых в символе сравнения.

Чаще всего программы OCR с определением признаков используют классификаторы на основе машинного обучения или нейронных сетей для обработки символов. Классификаторы используются для сравнения характеристик изображения с образцами, хранящимися в системе, и выбора наиболее близкого совпадения. Алгоритм обнаружения признаков хорош для необычных шрифтов или изображений низкого качества, где шрифт искажен.

ШАГ 3. ПОСТОБРАБОТКА

Как только символ идентифицирован, он преобразуется в код, который может использоваться компьютерными системами для дальнейшей обработки. Следует отметить, что вывод любой технологии/алгоритма OCR и технологии, связанной с OCR, содержит много шума и ложных срабатываний. Это затрудняет прямое использование вывода OCR, поэтому нам необходимо:

  • Отфильтруйте шумные выходные данные и ложные срабатывания
  • Объедините распознанные объекты с их извлеченным значением
  • Проверить возможные ошибки и запретить вывод пользователю, если таковые имеются

На основе статистических данных система может выявить некоторые типичные ошибки OCR, например, связанные со схожестью символов и слов. Таким образом, на данном этапе система исправляет недочеты, чтобы улучшить качество вывода OCR.

OCR — это задача машинного обучения и компьютерного зрения.

Оптическое распознавание символов является одной из основных задач компьютерного зрения. Компьютерное зрение позволяет системам видеть и интерпретировать объекты реального мира и распознавать тексты, отделяя их от сложного фона. Ранние версии OCR должны были быть обучены изображениям каждого символа и могли работать только с одним шрифтом за раз. Современные алгоритмы машинного обучения делают процесс распознавания текста более совершенным и обеспечивают более высокий уровень точности распознавания большинства шрифтов вне зависимости от форматов входных данных.

Достижения в области машинного обучения (ML) дали новый импульс развитию OCR, значительно увеличив число его приложений. Имея достаточно обучающих данных, алгоритм машинного обучения OCR теперь можно применять к любому реальному сценарию, требующему идентификации и преобразования текста. Например, сканирование чеков, сканирование печатного текста с дальнейшим преобразованием его в синтетическую речь, распознавание дорожных знаков, распознавание номерных знаков и т.д.

Использование современных алгоритмов машинного обучения позволяет значительно улучшить технологию и расширить варианты ее использования до более сложных. Например, OCR с глубоким обучением позволяет не только классифицировать изображения, но и анализировать изображения и извлекать более сложные данные из различных объектов, включая сотни рукописных шрифтов или языков.

Бизнес-кейсы OCR

Применение OCR в бизнесе имеет множество сценариев. Поскольку распознавание текста с помощью машинного обучения обеспечивает более высокую точность, чем более ранние версии оптического распознавания символов, это позволяет владельцам бизнеса создавать решения OCR для решения более широкого круга бизнес-задач. Современные OCR-системы используются в охранных, банковских, страховых, медицинских, телекоммуникационных, розничных компаниях и других отраслях.

Варианты использования технологии OCR включают проверку тестовых ответов, переводы в реальном времени, распознавание уличных знаков (Google Street View), поиск по фотографиям (Dropbox) и многое другое. Оптическое распознавание символов также широко используется службами безопасности. Эта технология помогает анализировать и обрабатывать документы, такие как водительские права или удостоверение личности, для проверки личности человека. Для каждого случая используется совершенно другое решение OCR.

OCR В ФИНАНСОВЫХ УСЛУГАХ

Финансовые операции требуют ввода огромного количества данных. Ручная обработка этих данных отнимает много времени и сил, а оцифровка финансовых документов и извлечение из них необходимой информации с помощью OCR делает бизнес-процессы плавными и оптимизированными. В результате технология OCR улучшает адаптацию клиентов и повышает общее качество обслуживания клиентов.

Использование оптического распознавания символов в банковском и финансовом секторе включает следующее:

  • Подключение клиента. Какие бы финансовые операции вы ни хотели выполнить, будь то открытие счета, снятие наличных или перевод денег, вам сначала необходимо пройти аутентификацию, чтобы подтвердить свою личность. Технология OCR обеспечивает полностью автоматизированный процесс регистрации, состоящий из сканирования документа, удостоверяющего личность (например, удостоверения личности, паспорта или водительских прав), извлечения необходимых данных с помощью OCR (например, имени, даты рождения, пола, фотографии, подписи и т. д.) и их проверки. . Например, механизм OCR может в режиме реального времени проверять, соответствует ли предоставленная подпись подписи на документе, удостоверяющем личность.
  • Функция сканирования для оплаты. Ручной ввод реквизитов платежа не исключает ошибок и занимает больше времени, чем предполагалось. Функция сканирования для оплаты использует оптическое распознавание символов для мгновенного сбора данных счета и их автоматической обработки. Для этого пользователю нужна только камера смартфона (например, вам может понадобиться сфотографировать свою кредитную карту). OCR также может выступать в качестве дополнительной функции безопасности при совершении платежей. Обычно пользователи хранят данные держателя карты в приложении, желая не вводить каждый раз номер карты и другие реквизиты. С OCR все, что вам нужно, это включить функцию OCR, которая извлекает данные за считанные секунды для каждого нового платежа, а затем удаляет их.
  • Распознавание чека. OCR позволяет автоматизировать извлечение данных из чеков для дальнейшего учета, архивирования или анализа документов. Вы можете найти эту функцию, реализованную в элементах приложения финансового помощника с отслеживанием денег для автоматического ввода данных о расходах и категориях расходов. Expensify является примером такого приложения.
  • Высокая изменчивость и часто низкое качество чеков являются основными проблемами для точного распознавания чеков с помощью OCR. В таком случае подход на основе правил не может быть эффективным, и именно здесь вступает в действие оптическое распознавание символов с глубоким обучением. Подход глубокого обучения к OCR позволяет системе учиться на полученных данных и совершенствоваться. Эта технология позволяет обучить модель идентифицировать области интереса (RoI) на изображении, которые с большой вероятностью содержат текст, игнорируя избыточные данные, такие как фон.
  • Обработка кредита. Средства OCR и распознавания текста на основе машинного обучения могут ускорить обработку заявок на получение кредита и ипотечного кредита до 70 процентов. Автоматизация ввода данных делает процесс рассмотрения заявок и их одобрения или отклонения намного быстрее и экономически выгоднее для компании. Алгоритмы ИИ могут анализировать необходимые данные из приложения, чтобы определить, должно ли оно быть одобрено или отклонено на основе правил финансового учреждения.

Варианты использования OCR в финансах не ограничиваются вышеперечисленным. Технология может использоваться для обработки других финансовых документов, таких как счета, контракты, счета, финансовые отчеты и т. д.

OCR В ЗДРАВООХРАНЕНИИ

Кейсы OCR в сфере здравоохранения тесно связаны с управлением данными. По данным Всемирного экономического форума, больницы производят в среднем 50 петабайт данных в год. Эти данные включают медицинские отчеты, формы рецептов, заявления, результаты лабораторных анализов и медицинские записи. Оцифровка медицинских документов и эффективное извлечение данных из них — важнейший аспект функционирования учреждения здравоохранения.

Применяя технологию оптического распознавания символов, больницы могут намного быстрее переводить документы в цифровой формат и сохранять их в виде PDF-документов, в которых можно легко искать по ключевым словам. Электронные медицинские карты решают одну из основных проблем больниц, потерю медицинской информации о пациентах. Кроме того, OCR позволяет извлекать данные из сертификатов или результатов анализов и отправлять их в системы управления больничной информацией (HIMS) для интеграции в истории болезни пациентов, таким образом формируя полную историю болезни пациентов.

Фармацевтические системы также могут использовать преимущества OCR. Благодаря модулю OCR такие системы позволяют сканировать медицинские рецепты и импортировать их в программное обеспечение для проверки наличия лекарства в базах данных аптек или даже использовать его для управления роботами-комплектовщиками.

Технология OCR также используется для помощи людям с нарушениями зрения. Сканируя текст на изображении, система OCR обеспечивает основу для использования технологии преобразования текста в речь. Все, что вам нужно сделать, это отсканировать текст, чтобы получить синтетический речевой вывод. Например, приложение Voice Speech Scanner использует камеру смартфона для захвата фотографии с текстом, а затем считывает весь текст обратно. Это новый уровень помощи людям с нарушениями зрения после технологии глубокого обучения подписи к изображению, которая обеспечивает автоматическое формирование текстового описания изображения.

OCR В РОЗНИЧНОЙ ТОРГОВЛЕ

Розничные продавцы производят множество различных документов, таких как упаковочные листы, счета-фактуры, заказы на покупку, квитанции, описания продуктов и другие. Это огромные объемы информации, которые, однако, не используются должным образом из-за сложной и трудоемкой обработки.

Используя OCR с машинным обучением, розничные продавцы могут испытать быстрое развитие внутренних бизнес-процессов и улучшить качество обслуживания клиентов, максимально используя существующие данные. Например, продавцы могут извлекать ценную информацию из аналитики заказов на покупку, чтобы создавать более эффективные маркетинговые кампании, рекламные акции и лучше управлять ценообразованием. Преобразовывая счета-фактуры и квитанции в цифровой формат и включая их в системы учета, розничные компании получают возможность автоматизировать свои учетные процессы.

Внедрение OCR — отличный способ справиться с большими нагрузками работников розничной торговли. Благодаря автоматическому вводу и извлечению данных сотрудникам остается только ручная проверка для достижения оптимальных результатов.

Случаи использования OCR в ритейле не ограничиваются вышеперечисленным. Функция распознавания текста может решить некоторые специфические проблемы розничных компаний. Например, технология может быть полезна для виноторговцев, предлагающих широкий ассортимент продукции. Благодаря распознаванию винных этикеток на основе OCR пользователи могут сфотографировать винную этикетку и получить информацию о продукте, такую ​​как обзоры, описание и т. д., чтобы помочь им сделать правильный выбор.

OCR В СФЕРЕ БЕЗОПАСНОСТИ И ПРАВООХРАНИТЕЛЬНЫХ ОРГАНОВ

Практически любая отрасль может использовать OCR как часть своей стратегии безопасности. Используя OCR на основе машинного обучения, компании могут создавать передовые системы аутентификации и проверки пользователей. Обычно ручное сравнение документов с предоставленной личной информацией и селфи используется для проверки подлинности идентификатора, представленного пользователем. Модель OCR устраняет эти ручные усилия, сканируя удостоверения личности, паспорта или водительские права и проверяя их подлинность, сравнивая их с информацией в базе данных.

В этом случае механизм OCR должен сначала распознать тип документа. Например, если пользователь выбирает аутентификацию с помощью водительских прав, документ, который он загружает в систему, должен соответствовать формату этого документа. Затем система должна проанализировать и обработать загруженные пользователем документы, чтобы получить соответствующие данные.

Поскольку документы одного типа могут иметь разный формат в зависимости от страны или штата, система должна уметь находить и извлекать нужные данные из всех вариантов. Использование алгоритмов глубокого обучения помогает системе OCR понимать относительные позиционные отношения между различными текстовыми блоками и комбинировать пары семантически связанных блоков текста для поиска соответствующих данных, таких как имя, дата рождения и т. д.

Также стоит упомянуть, что программное обеспечение для безопасной аутентификации OCR должно иметь функции, предотвращающие попытки спуфинга при анализе документов. Технологии защиты от спуфинга помогут системе обнаруживать поддельные сканы удостоверений личности и другие попытки мошенничества.

Технология оптического распознавания символов также широко используется для автоматического распознавания номерных знаков (ANPR). Эта технология очень полезна для камер, обеспечивающих соблюдение правил дорожного движения. ANPR также используется для электронного взимания платы за проезд по платным дорогам, управления автостоянками, контроля за движением автобусных полос и управления дорожным движением. В целом системы, основанные на помощи OCR, обеспечивают безопасность дорожного движения в большинстве стран мира.

Например, в США все полицейские управления используют ту или иную форму ANPR. Согласно отчету аудитора штата Калифорния за 2020 год, только Департамент полиции Лос-Анджелеса (LAPD) собрал более 320 миллионов сканирований номерных знаков. В Великобритании автоматическое распознавание номерных знаков используется для записи движения транспортных средств с почти 8000 камер, которые ежедневно снимают миллионы записей. Эти данные помогают сдерживать и останавливать преступность, в том числе организованные преступные группы и террористов.

Оборудование для оптического распознавания символов

Качественная система распознавания текста — это слаженная работа программного и аппаратного обеспечения. Аппаратное обеспечение, необходимое для OCR, — это специальный сканер или просто камера на вашем телефоне. Аппаратное обеспечение используется для получения изображения текста на бумажном листе, а программное обеспечение выполняет остальную работу, распознавая/извлекая текст из изображения. Аппаратное обеспечение играет роль глаз (рецепторов) программного обеспечения. А программное обеспечение играет роль мозга, который обрабатывает информацию глаза и извлекает смысл из воспринимаемых данных.

Современные решения OCR могут превратить смартфон или камеру ПК в полноценный сканер документов. Большинство современных приложений OCR загружают изображения на сервер для распознавания, а затем возвращают результат распознавания клиенту. Многие создатели приложений для iOS и Android разрабатывают собственные интеллектуальные интерфейсы камеры, которые определяют границы документа, корректируют перспективу и оптимизируют качество изображения. Результат мобильного оптического распознавания символов зависит, прежде всего, от камеры мобильного устройства и условий съемки.

Готовые решения против индивидуальной разработки OCR

Когда владельцу бизнеса требуется программное обеспечение для оптического распознавания символов, возникает вопрос, какое решение лучше использовать: готовое или индивидуальное решение. На рынке существует множество вариантов систем OCR, но важно понимать, что они в основном ориентированы на обработку стандартных бизнес-процессов и могут не соответствовать вашим конкретным потребностям. Вот почему так важно определить цели и требования вашего проекта, а затем изучить варианты.

ПРОТИВ КОММЕРЧЕСКИХ РЕШЕНИЙ OCR С ОТКРЫТЫМ ИСХОДНЫМ ИСХОДОМ

Существуют коммерческие и открытые решения OCR. Коммерческие обычно предоставляются как услуга. GoogleOCR является примером такого программного обеспечения. Если вам нужно быстро внедрить функциональность OCR в свое приложение, то GoogleOCR — отличный выбор. Но стоит помнить, что это решение платное и требует подключения к интернету.

OCR с открытым исходным кодом можно интегрировать в виде отдельных облачных сервисов клиентских приложений. Такие решения не требуют прямой оплаты услуги, но предполагают затраты на содержание инфраструктуры для функционирования OCR (например, микросервиса). Наличие микросервиса также требует подключения к Интернету для работы OCR. Однако существуют и автономные системы оптического распознавания символов, которые могут функционировать без Интернета. При этом пользовательское устройство должно предоставить достаточно вычислительных ресурсов для решения задачи OCR. Кроме того, OCR с открытым исходным кодом может иметь несколько более низкое качество вывода по сравнению с коммерческими решениями в некоторых конкретных задачах.

Варианты настройки — еще один ключевой фактор при выборе OCR. Коммерческие решения чаще всего не могут быть настроены под конкретные нужды клиента, даже при наличии необходимых для этого наборов данных. OCR с открытым исходным кодом можно адаптировать к конкретным требованиям пользователя, например, таким как распознавание рукописного ввода на редком языке.

Опытная команда разработчиков программного обеспечения может помочь вам выбрать правильное программное обеспечение для оптического распознавания текста. Поскольку движок OCR — это всего лишь часть продукта, выбор конкретного решения зависит от особенностей и требований каждого отдельного проекта. В MobiDev наша команда проводит тщательное изучение бизнес-кейса и требований проекта, чтобы выбрать наиболее оптимальный механизм оптического распознавания символов, протестировать его и интегрировать в приложение. Настройка позволяет расширить возможности существующих OCR и справиться с их ограничениями.

Ограничения технологии OCR и способы их преодоления

Хотя оптическое распознавание символов является широко используемой технологией, она имеет ограничения, особенно если говорить о классических системах распознавания текста. Сочетание OCR с компьютерным зрением и глубоким обучением во многих случаях повышает точность OCR, но важно понимать, что невозможно достичь 100% результатов и вам потребуются дополнительные программные решения для улучшения результатов.

В список ключевых ограничений технологии оптического распознавания символов входят следующие:

Чем ниже качество изображения, тем ниже качество вывода OCR

Результат распознавания очень сильно зависит от качества исходного изображения, поэтому так важен этап предварительной обработки изображения. Распространенные ошибки OCR включают неправильное прочтение букв, отсутствие нечитаемых букв или смешивание текста из соседних столбцов. Наиболее часто используемые методы нормализации изображения включают выравнивание и поворот документа, удаление размытия и применение фильтров, а также удаление элементов, не являющихся символами (таких как таблицы, линии-разделители и т. д.).

Сложный фон изображения

Такие элементы, как маленькие точки или острые края, составляющие фон, часто могут быть прочитаны как символы и искажать результаты процесса распознавания текста. Поэтому этап предварительной обработки для OCR должен включать в себя удаление шума и изоляцию текстового поля. Чтобы решить проблему присутствия шума, такого как точки, линии, пятна и т. д. на заднем плане, в настоящее время в подходах OCR используются алгоритмы на основе компьютерного зрения, обученные на расширенных наборах данных. Дополненные наборы данных — это обычные наборы данных с искусственно добавленными шумами, чтобы научить модель OCR правильно справляться с шумом.

OCR лучше работает с печатным текстом, чем с рукописным

Рукописные шрифты имеют сотни вариаций, что усложняет процесс распознавания текста. Плюс во многих вариантах есть случаи соединения букв, которые системе сложно разделить и которые приводят к искаженному выводу. Для распознавания рукописного ввода команде разработчиков необходимо обучить модель OCR с использованием алгоритмов глубокого обучения и передовых механизмов компьютерного зрения.

Стоит отметить, что чем качественнее набор данных, который используется для обучения модели, тем быстрее она будет улучшаться и приносить лучшие результаты. В этом случае лучше использовать меньше данных, но максимально актуальные. Использование огромных наборов данных, которые не точно отражают реальные данные вашего конкретного проекта, не даст успешных результатов.

Другие ограничения технологии оптического распознавания символов включают

  • Мелкий текст (размер шрифта менее 12 пунктов).
  • Обработка форм, поскольку для этого требуются системы, в которых OCR является лишь небольшой частью механизма.
  • Размытые копии. Иногда неточности можно восстановить из контекста, но когда речь идет об именах или числах, контекста может быть недостаточно для их восстановления.
  • Форматирование документа может быть потеряно при сканировании текста. Например, жирный, курсивный и подчеркнутый тексты не всегда распознаются и требуют последующего форматирования документа, что является отдельной задачей. Результат OCR всегда требует проверки орфографии и переформатирования для нужного макета.

Ключевые выводы

Оптическое распознавание символов (OCR) на основе искусственного интеллекта и машинного обучения — широко используемая технология для распознавания текста и оцифровки документов. Несмотря на то, что OCR еще не является точным на 100%, его варианты использования растут с развитием глубокого обучения и компьютерного зрения. Сегодня тот или иной тип OCR используется в розничной торговле, связи, финансах, здравоохранении, безопасности, туризме и других отраслях.

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter и LinkedIn. Присоединяйтесь к нашему сообществу Discord.