Я использую Mahout 0.9 (установлен на HDP 2.2) для обнаружения темы (алгоритм скрытого распределения Drichlet). У меня есть текстовый файл, хранящийся в каталоге inputraw
, и я выполнил следующие команды по порядку.
команда №1:
mahout seqdirectory -i inputraw -o output-directory -c UTF-8
команда №2:
mahout seq2sparse -i output-directory -o output-vector-str -wt tf -ng 3 --maxDFPercent 40 -ow -nv
команда №3:
mahout rowid -i output-vector-str/tf-vectors/ -o output-vector-int
команда №4:
mahout cvb -i output-vector-int/matrix -o output-topics -k 1 -mt output-tmp -x 10 -dict output-vector-str/dictionary.file-0
После выполнения второй команды, как и ожидалось, создается набор подпапок и файлов в папке output-vector-str
(с именами df-count
, dictionary.file-0
, frequency.file-0
, tf-vectors
, tokenized-documents
и wordcount
). Размер всех этих файлов выглядит нормально, учитывая размер моего входного файла, однако файл под ``tf-vectors` имеет очень маленький размер, фактически он составляет всего 118 байт).
По-видимому, как
`tf-vectors` is the input to the 3rd command, the third command also generates a file of small size. Does anyone know:
в чем причина файла под
`tf-vectors` folder to be that small? There must be something wrong.
Начиная с первой команды, все сгенерированные файлы имеют странную кодировку и не читаются человеком. Это что-то ожидаемое?