Я использую этот https://github.com/TomRoush/PdfBox-Android PDFBox на Библиотека Android Studio для извлечения текста из документа PDF. Вот что я делаю:
File pdf_file = new File(file_path);
чтобы создать файл, затем
PDDocument document = null;
document = PDDocument.load(pdf_file);
чтобы загрузить файл в объект PDDocument, а затем
PDFTextStripper pdfStripper = new PDFTextStripper();
pdfStripper.setStartPage(...);
pdfStripper.setEndPage(...);
String page_text = pdfStripper.getText(document);
чтобы получить текстовое содержимое страницы. Проблема в том, что когда есть, например, слово «фирма», оно отображается как «фирма». Это в основном ставит пробел после fi (и, я думаю, fls и другие лигатуры). Я попытался прочитать это Проблемы с извлечением текста OpenTypeFont с помощью pdfBox, но я не не пойму как исправить. Деталей решения нет.
Важно: как оказалось, в моем PDF-файле нет лигатур, таких как fi, но есть обычная fi, но после нее есть пробел. Решение непонятно.
PDF-файл: https://wetransfer.com/downloads/09e9036dda4a7062ccad357/232b19abcd8edc202