Проблема с созданием векторов из текста в Mahout

Я использую Mahout 0.9 (установлен на HDP 2.2) для обнаружения темы (алгоритм скрытого распределения Drichlet). У меня есть текстовый файл, хранящийся в каталоге inputraw, и я выполнил следующие команды по порядку.

команда №1:

mahout seqdirectory -i inputraw -o output-directory -c UTF-8

команда №2:

mahout seq2sparse -i output-directory -o output-vector-str -wt tf -ng 3 --maxDFPercent 40 -ow -nv

команда №3:

mahout rowid -i output-vector-str/tf-vectors/ -o output-vector-int

команда №4:

mahout cvb -i output-vector-int/matrix -o output-topics -k 1 -mt output-tmp -x 10 -dict output-vector-str/dictionary.file-0

После выполнения второй команды, как и ожидалось, создается набор подпапок и файлов в папке output-vector-str (с именами df-count, dictionary.file-0, frequency.file-0, tf-vectors, tokenized-documents и wordcount). Размер всех этих файлов выглядит нормально, учитывая размер моего входного файла, однако файл под ``tf-vectors` имеет очень маленький размер, фактически он составляет всего 118 байт).

По-видимому, как

`tf-vectors` is the input to the 3rd command, the third command also generates a file of small size. Does anyone know:
  1. в чем причина файла под

    `tf-vectors` folder to be that small? There must be something wrong.
    
  2. Начиная с первой команды, все сгенерированные файлы имеют странную кодировку и не читаются человеком. Это что-то ожидаемое?


person HHH    schedule 04.02.2015    source источник


Ответы (1)


Ваши ответы следующие:

  1. по какой причине файл в папке tf-vectors такой маленький?

Векторы малы, учитывая, что вы указали процент maxdf только 40%, подразумевая, что будут приниматься во внимание только термины, которые имеют doc freq (процентная частота терминов, встречающихся в документах) менее 40%. Другими словами, при создании векторов будут учитываться только термины, встречающиеся в 40% или менее документов.

  1. по какой причине файл в папке tf-vectors такой маленький?

В mahout есть команда, называемая mahout seqdumper, которая придет вам на помощь для сброса файлов в «последовательном» формате в «человекочитаемый» формат. Удачи!!

person Tanny    schedule 09.02.2015