В настоящее время мы сохраняем файлы (PDF, DOC) в базу данных как поля BLOB. Я хотел бы получить необработанный текст файла, чтобы иметь возможность манипулировать им для выделения хитов и других функций.
Кто-нибудь знает простой способ либо разобрать файлы, либо сохранить необработанный текст при сохранении либо с помощью кода SQL, либо .net. Я обнаружил, что у Adobe есть утилита filtdump, которая преобразует PDF в текст. Filtdump кажется инструментом командной строки, и я не вижу способа использовать файловый поток. И каким будет экстрактор для документов Office и других типов файлов?
-or-
Есть ли способ извлечь необработанный текст из полнотекстового индекса SQL без использования сторонних фильтров?
Обратите внимание, что я пытаюсь создать решение .net и MSSql без использования стороннего инструмента, такого как Lucene.