У меня есть 40 миллионов файлов, которые хранятся в файловых системах. Я хочу принять некоторые предложения, существует так много методов индексации, таких как DIH, solr, Solrj. Сколько ядер я должен использовать для индексации 50 миллионов документов. У меня 40 миллионов документов.
Я решил использовать SolJ. Это хороший способ для этого, если да, то я не знаю, сколько ядер мне следует использовать?
У меня есть 40 миллионов файлов, которые хранятся в файловых системах, имя файла сохранено как ARIA_SSN10_0007_LOCATION_0000129.pdf.
- Мне нужно разделить все значения подчеркивания из имени файла, и эти значения должны быть индексированы для solr.
Вышеупомянутая операция, которую я должен сделать. Можно ли использовать DIH, если да, то как я разделю эту операцию с помощью DIH. Пожалуйста, поделитесь ссылкой на него.
пожалуйста, предложите.
Спасибо