Я использую Cloudera quickstart vm 5.1.0-1
Я пытаюсь загрузить свой csv объемом 3 ГБ в Hadoop через Hue, и до сих пор я пробовал: - Загрузите csv в HDFS и, в частности, в папку, называемую наборами данных, расположенную в / user / hive / datasets - Используйте Metastore Manager, чтобы загрузить его в БД по умолчанию
Все работает нормально, это означает, что мне удается загрузить нужные столбцы. Основная проблема заключается в том, что, когда я запрашиваю таблицу, Impala запускает следующий запрос:
показать статистику таблицы new_table
Я понимаю, что размер составляет всего 64 МБ вместо фактического размера csv, который должен составлять 3 ГБ.
Кроме того, если я провожу подсчет (*) через Impala, количество строк будет всего 70000 против фактических 7 миллионов.
Любая помощь будет принята с благодарностью.
Заранее спасибо.