КВАНТРИАЛЬНЫЕ РУКОВОДСТВА
Установка и использование Tesseract 4 в Ubuntu 18.04
Сегодня извлечение информации из отсканированных документов, таких как письма, рецензии, счета и т. Д., Стало неотъемлемой частью ваших бизнес-процессов. Чтобы выполнить эту задачу, вам необходимо установить программное обеспечение OCR для извлечения информации из этих отсканированных документов или PDF-файлов.
Здесь мы проведем вас через процесс сборки и установки Tesseract 4.x на вашем компьютере с Ubuntu 18.04. Установить Tesseract 4.x можно двумя способами:
Один из них устанавливает версию Tesseract 4.0.0 beta, она проста в установке и может быть выполнена с помощью пары команд.
Кроме того, вы можете установить версию Tesseract 4.1.1, последнюю стабильную версию Tesseract. В этом посте мы расскажем, как установить каждый из них на вашу машину с Ubuntu 18.04.
Если вы не знакомы с инструментами сборки и сборкой из репозиториев GitHub, то установка Tesseract 4.0.0 beta - лучший способ для вас. Однако, если у вас есть опыт создания и установки приложений из репозиториев GitHub, вы можете пропустить следующий раздел и сразу перейти к разделу Установка Tesseract 4.1.1.
Установка бета-версии Tesseract 4.0.0
Установить бета-версию Tesseract 4.0.0 довольно просто, и это можно сделать с помощью следующих команд apt:
$ sudo apt install tesseract-ocr $ sudo apt install libtesseract-dev
После того, как вы выполнили эти две команды, проверьте, успешно ли вы установили tesseract, выполнив следующую команду:
$ tesseract --version
После выполнения этой команды у вас должно получиться что-то вроде этого:
tesseract 4.0.0-beta.1 leptonica-1.75.3
Или что-то в этом роде, если ваша установка прошла успешно. Если он не установлен должным образом, вы получите несколько ошибок. Это означает, что вам нужно проверить свою операционную систему и версии. Эти команды работают только в Ubuntu 18.04 или выше.
После успешной установки tesseract вы можете запустить следующую команду, чтобы проверить, какие языки поддерживаются вашей установленной версией tesseract:
$ tesseract --list-langs
Вы можете ожидать следующего результата:
List of available languages (2): eng osd
eng
означает, что он может определять английский язык, а osd
означает, что он может определять ориентацию и сценарий.
Что ж, поздравляю! Вы успешно установили бета-версию Tesseract 4.0.0 в свою систему, и она готова к использованию.
Установка tesseract 4.1.1 в Ubuntu 18.04:
В этом разделе мы расскажем, как создать и установить tesseract 4.1.1 из следующего репозитория tesseract на GitHub:
Прежде чем вы начнете собирать tesseract 4.1.1 из исходников, вам нужно установить несколько зависимостей. Во-первых, вы должны установить библиотеку leptonica
, это педагогически ориентированная библиотека с открытым исходным кодом, содержащая программное обеспечение, которое широко используется для обработки изображений и приложений анализа изображений. Чтобы узнать больше о leptonica
, посетите веб-сайт Leptonica:
Чтобы установить leptonica
, используйте следующую команду:
$ sudo apt-get install -y libleptonica-dev
Дополнительный список всех зависимостей, требуемых tesseract, можно найти здесь:
Из этого списка, скорее всего, у вас не будет следующих зависимостей:
automake pkg-config pango-devel cairo-devel icu-devel
В вашей системе Ubuntu есть gcc
, который предлагает поддержку C ++ 11, следовательно, он уже есть. Вы можете использовать следующие команды для установки вышеуказанных зависимостей:
$ sudo apt-get update -y
$ sudo apt-get install automake
$ sudo apt-get install -y pkg-config
$ sudo apt-get install -y libsdl-pango-dev
$ sudo apt-get install -y libicu-dev
$ sudo apt-get install -y libcairo2-dev
$ sudo apt-get install bc
Последняя библиотека bc
- это дополнительная зависимость, необходимая для запуска tesseract 4 на вашем компьютере.
Теперь вам нужно клонировать репозиторий tesseract. Привет! но остановись прямо здесь! Сначала перейдите в следующий репозиторий:
И откройте файл с именем VERSION, вы увидите, что 5.0.0-alpha написано, что означает версию tesseract, которая будет установлена с помощью make-файл в этом репозитории будет 5.0.0-alpha. Но это не стабильная версия tesseract, стабильная версия - 4.1.1 на момент создания этой публикации.
Теперь, чтобы найти ссылку для загрузки последней стабильной версии tesseract, на правой боковой панели вы найдете раздел под названием «Релизы», в котором вы увидите 4.1.1 Release .
Щелкните ссылку 4.1.1. Release и там вы найдете раздел Assets с исходным кодом (zip
) и исходным кодом (tar.gz
), скопируйте ссылку и загрузите с помощью следующей команды:
$ wget https://github.com/tesseract-ocr/tesseract/archive/4.1.1.zip
Вы можете скачать zip
или tar.gz
файл. Я скачал файл zip
. Вы можете распаковать файл в текущий каталог с помощью команды unzip
:
$ unzip 4.1.1.zip
По завершении операции распаковки будет создана папка с названием tesseract-4.1.1. Войдите в этот каталог с помощью команды cd
.
$ cd tesseract-4.1.1
В этой папке, если вы перечислите файлы, это должно быть примерно так:
abseil CONTRIBUTING.md java tessdata
appveyor.yml cppan.yml LICENSE tesseract.pc.cmake
AUTHORS doc m4 tesseract.pc.in
autogen.sh docker-compose.yml Makefile.am test
ChangeLog Dockerfile README.md unittest
cmake googletest snap VERSION
CMakeLists.txt INSTALL src
configure.ac INSTALL.GIT.md sw.cpp
Теперь вы готовы к установке tesseract
. Различные способы и способы сделать это для различных операционных систем приведены ниже по этой ссылке:
https://github.com/tesseract-ocr/tesseract/blob/master/INSTALL.GIT.md < br /> Мы собираемся использовать для этого автоинструменты (LINUX / UNIX, msys…).
Чтобы установить тессеракт, вам нужно запустить следующие команды из каталога tesseract-4.1.1:
$ ./autogen.sh
$ ./configure
$ make
$ sudo make install
$ sudo ldconfig
$ make training
$ sudo make training-install
Чтобы убедиться, что tesseract успешно установлен, выполните следующую команду:
$ tesseract --version
Вы должны увидеть что-то вроде этого:
tesseract 4.1.1 leptonica-1.75.3 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2 Found AVX Found FMA Found SSE
Если результат отличается от приведенного выше или вы получаете какую-то ошибку, попробуйте вернуться и проверьте еще раз, чтобы увидеть, где вы пошли не так, или снова выполните шаги один за другим.
Папка tessdata
Теперь папка tessdata
в каталоге tesseract - это место, где tesseract проверяет языковые данные, необходимые для выполнения OCR во входном документе.
Для работы tesseract
необходим хотя бы один язык, для английского - файл данных с названием 'eng.traineddata'
. Также вам понадобится еще один файл с названием 'osd.traineddata'
, он используется для определения ориентации и также требуется в папке tessdata
.
К сожалению, они не устанавливаются по умолчанию в эту папку, когда мы запускаем команду make
. Их нужно скачать отдельно в эту папку. Вы можете проверить содержимое папки tessdata
с помощью команды ls
:
$ cd tessdata
$ ls
Вы увидите результат, похожий на следующий:
configs eng.user-words Makefile.am pdf.ttf
eng.user-patterns Makefile Makefile.in tessconfigs
Как видите, отсутствуют как eng.traineddata
, так и osd.traineddata
. Теперь загрузите eng.traineddata
и osd.trainedddata
по следующей ссылке:
Вы можете загрузить их в свою локальную систему, а затем загрузить в папку tessdata
или загрузить их напрямую с помощью команды wget
:
$ wget https://github.com/tesseract-ocr/tessdata/blob/master/eng.traineddata
$ wget https://github.com/tesseract-ocr/tessdata/blob/master/osd.traineddata
После того, как вы успешно загрузили эти файлы, вам нужно установить переменную среды TESSDATA_PREFIX
в местоположение вашего tessdata
каталога. Используйте команду export
, чтобы установить переменную:
$ export TESSDATA_PREFIX=/content/tesseract-4.1.1/tessdata
Теперь вы можете перечислить языки в вашем tesseract
, используя следующую команду:
$ tesseract --list-langs
Вы можете увидеть результат следующим образом:
List of available languages (2):
eng
osd
Если вы хотите использовать другие языки, вы можете загрузить их в папку tessdata
и начать их использовать.
Использование Tesseract из терминала
Tesseract имеет различные оболочки, например оболочку Python с именем pytesseract
, эти оболочки помогают вам получить доступ к tesseract
с использованием различных языков программирования. Здесь мы будем использовать tesseract через командную строку.
Чтобы выполнить OCR для изображения, вы можете запустить следующую команду на терминале, указав путь к файлу изображения, для которого вы хотите выполнить OCR:
$ tesseract <path_of_image> stdout
В приведенной выше команде path_of_image - это местоположение изображения, с которым вы хотите протестировать тессеракт. Как только вы это сделаете, вы должны получить вывод прямо в командной строке, который выглядит примерно так:
Здесь pardit
был текст, присутствующий на моем изображении. Итак, я смог успешно использовать tesseract для извлечения текста из моего файла изображения.
Сохранение вывода Tesseract в файл
Если вы хотите сохранить вывод tesseract в текстовый файл, вы можете использовать следующую команду:
tesseract <path_of_image> output.txt
Здесь вывод будет сохранен в output.txt
файле в вашем текущем рабочем каталоге.
Запуск Tesseract на нескольких файлах
Иногда нам нужно извлечь текст из нескольких изображений или документов. Для этого вы можете предоставить текстовый файл в качестве входных данных для Tesseract, который содержит все абсолютные пути к изображениям, для которых вы хотите выполнить OCR, по одному файлу в каждой строке.
Например, у вас есть две фотографии с именами handwritten_photo_1.png
и handwritten_photo_2.png
с некоторым текстом в каталоге /usr/share/
. Давайте создадим файл с именем input.txt
со следующим содержанием:
/usr/share/handwritten_photo_1.png /usr/share/handwritten_photo_2.png
И вы хотите сохранить содержимое этих двух рукописных фотографий в текстовом файле, скажем, output.txt
. Вам необходимо выполнить следующую команду:
$ tesseract input.txt output.txt
output.txt
будет иметь содержимое OCR как handwritten_photo_1.png
, так и handwritten_photo_2.png
в указанном порядке. Когда вы откроете и просмотрите содержимое output.txt
, вы увидите, что извлеченным строкам предшествует какой-то символ вроде этого:
Итак, в этом случае Viral Calic
- это прогноз для первого изображения, CY am the king of the world
прогноз для второго изображения, Com and Serr
прогноз для третьего изображения и так далее.
Вы можете подробнее изучить использование тессеракта по следующим двум ссылкам:
Главная страница Tesseract
Синтаксис командной строки и другие сведения см. На главной странице. См. Раздел «Запуск Tesseract для ознакомления с основным использованием командной строки. См.… tesseract-ocr.github.io »
Я надеюсь, что вы смогли следовать руководству и смогли установить и использовать Tesseract на вашем компьютере с Ubuntu 18.04.