Установка tesseract 4 в Ubuntu 18.04

КВАНТРИАЛЬНЫЕ РУКОВОДСТВА

Установка и использование Tesseract 4 в Ubuntu 18.04

Сегодня извлечение информации из отсканированных документов, таких как письма, рецензии, счета и т. Д., Стало неотъемлемой частью ваших бизнес-процессов. Чтобы выполнить эту задачу, вам необходимо установить программное обеспечение OCR для извлечения информации из этих отсканированных документов или PDF-файлов.

Здесь мы проведем вас через процесс сборки и установки Tesseract 4.x на вашем компьютере с Ubuntu 18.04. Установить Tesseract 4.x можно двумя способами:

Один из них устанавливает версию Tesseract 4.0.0 beta, она проста в установке и может быть выполнена с помощью пары команд.

Кроме того, вы можете установить версию Tesseract 4.1.1, последнюю стабильную версию Tesseract. В этом посте мы расскажем, как установить каждый из них на вашу машину с Ubuntu 18.04.

Если вы не знакомы с инструментами сборки и сборкой из репозиториев GitHub, то установка Tesseract 4.0.0 beta - лучший способ для вас. Однако, если у вас есть опыт создания и установки приложений из репозиториев GitHub, вы можете пропустить следующий раздел и сразу перейти к разделу Установка Tesseract 4.1.1.

Установка бета-версии Tesseract 4.0.0

Установить бета-версию Tesseract 4.0.0 довольно просто, и это можно сделать с помощью следующих команд apt:

$ sudo apt install tesseract-ocr
$ sudo apt install libtesseract-dev

После того, как вы выполнили эти две команды, проверьте, успешно ли вы установили tesseract, выполнив следующую команду:

$ tesseract --version

После выполнения этой команды у вас должно получиться что-то вроде этого:

tesseract 4.0.0-beta.1 
 leptonica-1.75.3

Или что-то в этом роде, если ваша установка прошла успешно. Если он не установлен должным образом, вы получите несколько ошибок. Это означает, что вам нужно проверить свою операционную систему и версии. Эти команды работают только в Ubuntu 18.04 или выше.

После успешной установки tesseract вы можете запустить следующую команду, чтобы проверить, какие языки поддерживаются вашей установленной версией tesseract:

$ tesseract --list-langs

Вы можете ожидать следующего результата:

List of available languages (2):
eng 
osd

eng означает, что он может определять английский язык, а osd означает, что он может определять ориентацию и сценарий.

Что ж, поздравляю! Вы успешно установили бета-версию Tesseract 4.0.0 в свою систему, и она готова к использованию.

Установка tesseract 4.1.1 в Ubuntu 18.04:

В этом разделе мы расскажем, как создать и установить tesseract 4.1.1 из следующего репозитория tesseract на GitHub:

tesseract-ocr / tesseract
Этот пакет содержит механизм распознавания текста - libtesseract и программу командной строки - tesseract. В Tesseract 4 добавлен новый… github.com

Прежде чем вы начнете собирать tesseract 4.1.1 из исходников, вам нужно установить несколько зависимостей. Во-первых, вы должны установить библиотеку leptonica, это педагогически ориентированная библиотека с открытым исходным кодом, содержащая программное обеспечение, которое широко используется для обработки изображений и приложений анализа изображений. Чтобы узнать больше о leptonica, посетите веб-сайт Leptonica:

Http://www.leptonica.org/

Чтобы установить leptonica, используйте следующую команду:

$ sudo apt-get install -y libleptonica-dev

Дополнительный список всех зависимостей, требуемых tesseract, можно найти здесь:

tesseract-ocr / tesseract
Если вы клонировали Tesseract из GitHub, вы должны сгенерировать скрипт конфигурации. Если у вас tesseract 4.0x… github.com

Из этого списка, скорее всего, у вас не будет следующих зависимостей:

automake 
pkg-config
pango-devel
cairo-devel
icu-devel

В вашей системе Ubuntu есть gcc, который предлагает поддержку C ++ 11, следовательно, он уже есть. Вы можете использовать следующие команды для установки вышеуказанных зависимостей:

$ sudo apt-get update -y
$ sudo apt-get install automake
$ sudo apt-get install -y pkg-config
$ sudo apt-get install -y libsdl-pango-dev
$ sudo apt-get install -y libicu-dev
$ sudo apt-get install -y libcairo2-dev
$ sudo apt-get install bc

Последняя библиотека bc - это дополнительная зависимость, необходимая для запуска tesseract 4 на вашем компьютере.

Теперь вам нужно клонировать репозиторий tesseract. Привет! но остановись прямо здесь! Сначала перейдите в следующий репозиторий:

И откройте файл с именем VERSION, вы увидите, что 5.0.0-alpha написано, что означает версию tesseract, которая будет установлена с помощью make-файл в этом репозитории будет 5.0.0-alpha. Но это не стабильная версия tesseract, стабильная версия - 4.1.1 на момент создания этой публикации.

Теперь, чтобы найти ссылку для загрузки последней стабильной версии tesseract, на правой боковой панели вы найдете раздел под названием «Релизы», в котором вы увидите 4.1.1 Release .

Щелкните ссылку 4.1.1. Release и там вы найдете раздел Assets с исходным кодом (zip) и исходным кодом (tar.gz), скопируйте ссылку и загрузите с помощью следующей команды:

$ wget https://github.com/tesseract-ocr/tesseract/archive/4.1.1.zip

Вы можете скачать zip или tar.gz файл. Я скачал файл zip. Вы можете распаковать файл в текущий каталог с помощью команды unzip:

$ unzip 4.1.1.zip

По завершении операции распаковки будет создана папка с названием tesseract-4.1.1. Войдите в этот каталог с помощью команды cd.

$ cd tesseract-4.1.1

В этой папке, если вы перечислите файлы, это должно быть примерно так:

abseil		CONTRIBUTING.md     java	 tessdata
appveyor.yml	cppan.yml	    LICENSE	 tesseract.pc.cmake
AUTHORS		doc		    m4		 tesseract.pc.in
autogen.sh	docker-compose.yml  Makefile.am  test
ChangeLog	Dockerfile	    README.md	 unittest
cmake		googletest	    snap	 VERSION
CMakeLists.txt	INSTALL		    src
configure.ac	INSTALL.GIT.md	    sw.cpp

Теперь вы готовы к установке tesseract. Различные способы и способы сделать это для различных операционных систем приведены ниже по этой ссылке:
https://github.com/tesseract-ocr/tesseract/blob/master/INSTALL.GIT.md < br /> Мы собираемся использовать для этого автоинструменты (LINUX / UNIX, msys…).

Чтобы установить тессеракт, вам нужно запустить следующие команды из каталога tesseract-4.1.1:

$ ./autogen.sh
$ ./configure
$ make
$ sudo make install
$ sudo ldconfig
$ make training
$ sudo make training-install

Чтобы убедиться, что tesseract успешно установлен, выполните следующую команду:

$ tesseract --version

Вы должны увидеть что-то вроде этого:

tesseract 4.1.1
 leptonica-1.75.3
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found FMA
 Found SSE

Если результат отличается от приведенного выше или вы получаете какую-то ошибку, попробуйте вернуться и проверьте еще раз, чтобы увидеть, где вы пошли не так, или снова выполните шаги один за другим.

Папка tessdata

Теперь папка tessdata в каталоге tesseract - это место, где tesseract проверяет языковые данные, необходимые для выполнения OCR во входном документе.

Для работы tesseract необходим хотя бы один язык, для английского - файл данных с названием 'eng.traineddata'. Также вам понадобится еще один файл с названием 'osd.traineddata', он используется для определения ориентации и также требуется в папке tessdata.

К сожалению, они не устанавливаются по умолчанию в эту папку, когда мы запускаем команду make. Их нужно скачать отдельно в эту папку. Вы можете проверить содержимое папки tessdata с помощью команды ls:

$ cd tessdata
$ ls

Вы увидите результат, похожий на следующий:

configs		   eng.user-words  Makefile.am	pdf.ttf
eng.user-patterns  Makefile	   Makefile.in	tessconfigs

Как видите, отсутствуют как eng.traineddata, так и osd.traineddata. Теперь загрузите eng.traineddata и osd.trainedddata по следующей ссылке:

tesseract-ocr / tessdata
Обученные модели с поддержкой устаревшего движка LSTM OCR GitHub является домом для более чем 50 миллионов разработчиков, работающих… github.com

Вы можете загрузить их в свою локальную систему, а затем загрузить в папку tessdata или загрузить их напрямую с помощью команды wget:

$ wget https://github.com/tesseract-ocr/tessdata/blob/master/eng.traineddata 
$ wget https://github.com/tesseract-ocr/tessdata/blob/master/osd.traineddata

После того, как вы успешно загрузили эти файлы, вам нужно установить переменную среды TESSDATA_PREFIX в местоположение вашего tessdata каталога. Используйте команду export, чтобы установить переменную:

$ export TESSDATA_PREFIX=/content/tesseract-4.1.1/tessdata

Теперь вы можете перечислить языки в вашем tesseract, используя следующую команду:

$ tesseract --list-langs

Вы можете увидеть результат следующим образом:

List of available languages (2):
eng
osd

Если вы хотите использовать другие языки, вы можете загрузить их в папку tessdata и начать их использовать.

Использование Tesseract из терминала

Tesseract имеет различные оболочки, например оболочку Python с именем pytesseract, эти оболочки помогают вам получить доступ к tesseract с использованием различных языков программирования. Здесь мы будем использовать tesseract через командную строку.

Чтобы выполнить OCR для изображения, вы можете запустить следующую команду на терминале, указав путь к файлу изображения, для которого вы хотите выполнить OCR:

$ tesseract <path_of_image> stdout

В приведенной выше команде path_of_image - это местоположение изображения, с которым вы хотите протестировать тессеракт. Как только вы это сделаете, вы должны получить вывод прямо в командной строке, который выглядит примерно так:

Здесь pardit был текст, присутствующий на моем изображении. Итак, я смог успешно использовать tesseract для извлечения текста из моего файла изображения.

Сохранение вывода Tesseract в файл

Если вы хотите сохранить вывод tesseract в текстовый файл, вы можете использовать следующую команду:

tesseract <path_of_image> output.txt

Здесь вывод будет сохранен в output.txt файле в вашем текущем рабочем каталоге.

Запуск Tesseract на нескольких файлах

Иногда нам нужно извлечь текст из нескольких изображений или документов. Для этого вы можете предоставить текстовый файл в качестве входных данных для Tesseract, который содержит все абсолютные пути к изображениям, для которых вы хотите выполнить OCR, по одному файлу в каждой строке.

Например, у вас есть две фотографии с именами handwritten_photo_1.png и handwritten_photo_2.png с некоторым текстом в каталоге /usr/share/. Давайте создадим файл с именем input.txt со следующим содержанием:

/usr/share/handwritten_photo_1.png
/usr/share/handwritten_photo_2.png

И вы хотите сохранить содержимое этих двух рукописных фотографий в текстовом файле, скажем, output.txt. Вам необходимо выполнить следующую команду:

$ tesseract input.txt output.txt

output.txt будет иметь содержимое OCR как handwritten_photo_1.png , так и handwritten_photo_2.png в указанном порядке. Когда вы откроете и просмотрите содержимое output.txt, вы увидите, что извлеченным строкам предшествует какой-то символ вроде этого:

Итак, в этом случае Viral Calic - это прогноз для первого изображения, CY am the king of the world прогноз для второго изображения, Com and Serr прогноз для третьего изображения и так далее.

Вы можете подробнее изучить использование тессеракта по следующим двум ссылкам:

tesseract-ocr / tesseract
Последняя версия документации доступна по адресу https://tesseract-ocr.github.io/. Tesseract - это программа для распознавания текста с открытым исходным кодом… github.com

Главная страница Tesseract
Синтаксис командной строки и другие сведения см. На главной странице. См. Раздел «Запуск Tesseract для ознакомления с основным использованием командной строки. См.… tesseract-ocr.github.io »

Я надеюсь, что вы смогли следовать руководству и смогли установить и использовать Tesseract на вашем компьютере с Ubuntu 18.04.