сколько ядер мне нужно использовать для индексации 50 миллионов документов с использованием Solr

У меня есть 40 миллионов файлов, которые хранятся в файловых системах. Я хочу принять некоторые предложения, существует так много методов индексации, таких как DIH, solr, Solrj. Сколько ядер я должен использовать для индексации 50 миллионов документов. У меня 40 миллионов документов.

Я решил использовать SolJ. Это хороший способ для этого, если да, то я не знаю, сколько ядер мне следует использовать?

У меня есть 40 миллионов файлов, которые хранятся в файловых системах, имя файла сохранено как ARIA_SSN10_0007_LOCATION_0000129.pdf.

  1. Мне нужно разделить все значения подчеркивания из имени файла, и эти значения должны быть индексированы для solr.

Вышеупомянутая операция, которую я должен сделать. Можно ли использовать DIH, если да, то как я разделю эту операцию с помощью DIH. Пожалуйста, поделитесь ссылкой на него.

пожалуйста, предложите.
Спасибо


person Mugeesh Husain    schedule 04.08.2015    source источник
comment
проверьте, поможет ли это вам многоядерность против сегментирования против 1 большой коллекции"> stackoverflow.com/questions/31691606/   -  person Abhijit Bashetti    schedule 04.08.2015
comment
@Abhijit Я видел ваш пост, индексируете ли вы эти ядра с помощью SolrJ?   -  person Mugeesh Husain    schedule 04.08.2015
comment
нет. Я не использую SolrJ... Используя http/Rest API solr... индексирование DIH..   -  person Abhijit Bashetti    schedule 04.08.2015
comment
У меня есть файловые системы, имя файла сохранено как ARIA_SSN10_0007_LOCATION_0000129.pdf, и мне нужно разделить все значения подчеркивания из имени файла, и эти значения должны быть индексом для solr. как сделать такие вещи, как разделение и т. д., используя DIH. Возможно ли это с помощью DIH, если да, то как   -  person Mugeesh Husain    schedule 04.08.2015
comment
разделение текста - это то, что называется токенизацией текста... и это делается с помощью анализаторов/токенизаторов, фильтров и т. д.... поэтому создайте тип поля или используйте существующий для вашего поля...   -  person Abhijit Bashetti    schedule 05.08.2015
comment
разделение текста не так... я думаю, вы не прочитали мое требование. мне нужно разделить имя файла, чтобы получить много значений, эти значения я должен проиндексировать в соответствии с их полем ... Пожалуйста, прочитайте мое требование .. перед индексированием я хочу получить значение, а затем проиндексировать для solr .. Как это сделать с использованием DIH?   -  person Mugeesh Husain    schedule 05.08.2015