Публикации по теме 'hadoop'


Железный треугольник науки о данных — современная бизнес-аналитика и машинное обучение
Новый железный треугольник Это клише — обсуждать ИТ/бизнес-решения как людей, процессы и технологии. Некоторые называют это «золотым треугольником», но в этом блоге мы называем его «железным треугольником». С 1960-х годов технологии изменили бизнес благодаря появлению вычислений и управления информацией. Эти системы заменили преимущественно ручные операции, такие как ведение учета, финансы и отчетность. Компании, не внедрившие технологии, вскоре разорились или пришли в упадок...

Вопросы по теме 'hadoop'

Cassandra setInputSplitSize не работает должным образом
Я использую Hadoop + Cassandra. Я использую setInputSplitSize(1000), чтобы не перегружать мапперы (и получать из кучи), по умолчанию это 64 КБ. Все вместе у меня есть только 2M строк для обработки. На самом деле каждый разбиение должно быть ~ 1000...
171 просмотров
schedule 10.05.2024

Mahout на Elastic MapReduce: пространство кучи Java
Я запускаю Mahout 0.6 из командной строки в кластере Amazon Elastic MapReduce, пытаясь сгруппировать около 1500 коротких документов, и задания продолжают завершаться сбоем с сообщением «Ошибка: пространство кучи Java». Основываясь на предыдущих...
3919 просмотров
schedule 12.03.2024

EOFException в org.apache.hadoop.io.SequenceFile$Reader.init(SequenceFile.java:1508)
Я пытался запустить пример умножения матриц, представленный г-ном Норштадтом по следующей ссылке http://www.norstad.org/matrix-multiply/index.html . Я могу успешно запустить его с помощью hadoop 0.20.2, но я пытался запустить его с помощью hadoop...
3811 просмотров
schedule 18.04.2024

записать данные в hbase
У меня проблема при записи данных в hbase. У меня есть сервер с 4 регионами. Когда я пишу данные и использую ключ radom, данные записываются в любой регион, но они находятся на сервере одного региона. Один сервер занят, три сервера свободны. Как это...
226 просмотров
schedule 10.03.2024

Проблема с настройкой Hadoop CDH4.1.2 с помощью Kerberos
Мой файл журнала узла данных: *2013-01-28 22:12:05,084 WARN org.apache.hadoop.ipc.Client: Exception encountered while connecting to the server : javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials...
1979 просмотров
schedule 07.04.2024

Как лучше всего хранить и запрашивать большой набор метеорологических данных?
Я ищу удобный способ хранить и запрашивать огромное количество метеорологических данных (несколько ТБ). Подробнее о типе данных посередине вопроса. Раньше я искал в направлении MongoDB (я использовал его во многих своих предыдущих проектах и...
7148 просмотров
schedule 23.03.2024

Попытка загрузить индексированный файл LZO с помощью LzoPigStorage и слоновой птицы
У меня есть файл журнала со сжатием LZO по умолчанию и файл .index, сгенерированный с помощью Hadoop-LZO, но когда я запускаю простой файл Pig для извлечения 100 лучших записей с помощью LzoPigStorage, я получаю следующее исключение: Message:...
475 просмотров
schedule 23.03.2024

Как указать корзину S3 в качестве входных данных для EMR
Можно ли вместо копирования в HDFS просто получить массив объектов в корзине S3 для обработки в EMR? Я пробовал это, и я продолжаю либо получать предупреждения безопасности об отсутствии учетных данных (даже после того, как я добавляю их в конфиги)...
1134 просмотров
schedule 25.05.2024

ОШИБКА org.apache.sqoop.tool.ExportTool — ошибка во время экспорта: задание экспорта не удалось
мы пытаемся экспортировать данные из HDFS в mysql с помощью sqoop и сталкиваемся со следующей проблемой. Образец данных: 4564,38,153,2013-05-30 10:40:42.767,false,No credentials attempted,,,00 00 00 00 01 64 e6 a6 4565,38,160,2013-05-30...
7907 просмотров
schedule 04.05.2024

Как узнать идентификатор потока заданий, другие параметры кластера в скрипте, запущенном через script-runner.jar
Я запускаю эластичный кластер mapreduce со следующей командной строкой: $ elastic-mapreduce \ --create \ --num-instances "${INSTANCES}" \ --instance-type m1.medium \ --ami-version 3.0.4 \ --name "${CLUSTER_NAME}" \ --log-uri...
838 просмотров
schedule 06.04.2024

JsonLoader отсутствует в Piggybank
ОШИБКА org.apache.pig.tools.grunt.Grunt — ОШИБКА 1070: не удалось разрешить org.apache.pig.piggybank.storage.JsonLoader с помощью импорта... Когда я смотрю на pig-0.12.1/contrib/piggybank/java/src/main/java/org/apache/pig/piggybank/,...
938 просмотров
schedule 19.04.2024

Чтение файла последовательности в Hadoop 2.0
Я пытаюсь прочитать файл последовательности в hadoop 2.0, но не могу этого добиться. Я использую приведенный ниже код, который отлично работает в Hadoop 1.0. Пожалуйста, дайте мне знать, если я что-то упустил в 2.0 Configuration conf = new...
339 просмотров
schedule 10.04.2024

Свинья CROSS против реплицированного JOIN
Мне нужно сделать неравноправное соединение в Pig. Первое, что я хочу попробовать, это CROSS + фильтр: together = CROSS A, B; filtered = FILTER together BY (JOIN PREDICATE); Однако одно из отношений определенно достаточно мало, чтобы...
1642 просмотров
schedule 11.05.2024

Hadoop в кластере Maui+Torque
У меня есть кластер с Torque+Maui. Можно ли установить Hadoop в том же кластере? Каковы плюсы и минусы этого, если это возможно?
452 просмотров
schedule 05.05.2024

Как развернуть Spark, чтобы он мог максимально использовать ресурсы
У меня 10 серверов (16 ГБ памяти, 8 ядер) и я хочу развернуть Hadoop и Spark, можете ли вы сказать мне, какой план может обеспечить максимальное использование ресурсов? немедленное развертывание; установить Openstack, развернуть среду на...
160 просмотров

Загрузка большого csv в hadoop через Hue сохранит только блок размером 64 МБ
Я использую Cloudera quickstart vm 5.1.0-1 Я пытаюсь загрузить свой csv объемом 3 ГБ в Hadoop через Hue, и до сих пор я пробовал: - Загрузите csv в HDFS и, в частности, в папку, называемую наборами данных, расположенную в / user / hive / datasets -...
3659 просмотров
schedule 07.04.2024

hive 0.14: невозможно вставить данные в поддерживаемую ACID таблицу без сегментов
В hive 0.14 у меня есть таблица с транзакцией, поддерживаемой ACID. create table HiveTest (EmployeeID Int,FirstName String,Designation String, Salary Int,Department String) clustered by (department) into 3 buckets stored as orc TBLPROPERTIES...
3645 просмотров
schedule 20.05.2024

Проблема с созданием векторов из текста в Mahout
Я использую Mahout 0.9 (установлен на HDP 2.2) для обнаружения темы (алгоритм скрытого распределения Drichlet). У меня есть текстовый файл, хранящийся в каталоге inputraw , и я выполнил следующие команды по порядку. команда №1: mahout...
172 просмотров

Mahout IntDoubleProcedure NoClassDefFoundError
Я использую школьный сервер, на котором уже есть хаупы и махауты. Но мне нужно разобрать csv на вектор. Поэтому я попробовал чужой код из git. Но у меня есть следующее исключение, которое я не могу решить. dcmac04:dir username$ java -jar...
89 просмотров
schedule 22.03.2024

Установка Ooozi выдает ошибку MojoExceptiion. узи версия 4.2.0
Журнал ошибок [INFO] BUILD FAILURE [INFO] ------------------------------------------------------------------------ [INFO] Total time: 14:13.610s [INFO] Finished at: Mon Aug 03 04:57:58 IST 2015 [INFO] Final Memory: 115M/243M [INFO]...
504 просмотров
schedule 12.03.2024