Публикации по теме 'hadoop'
Железный треугольник науки о данных — современная бизнес-аналитика и машинное обучение
Новый железный треугольник
Это клише — обсуждать ИТ/бизнес-решения как людей, процессы и технологии. Некоторые называют это «золотым треугольником», но в этом блоге мы называем его «железным треугольником». С 1960-х годов технологии изменили бизнес благодаря появлению вычислений и управления информацией. Эти системы заменили преимущественно ручные операции, такие как ведение учета, финансы и отчетность. Компании, не внедрившие технологии, вскоре разорились или пришли в упадок...
Вопросы по теме 'hadoop'
Cassandra setInputSplitSize не работает должным образом
Я использую Hadoop + Cassandra. Я использую setInputSplitSize(1000), чтобы не перегружать мапперы (и получать из кучи), по умолчанию это 64 КБ. Все вместе у меня есть только 2M строк для обработки. На самом деле каждый разбиение должно быть ~ 1000...
171 просмотров
schedule
10.05.2024
Mahout на Elastic MapReduce: пространство кучи Java
Я запускаю Mahout 0.6 из командной строки в кластере Amazon Elastic MapReduce, пытаясь сгруппировать около 1500 коротких документов, и задания продолжают завершаться сбоем с сообщением «Ошибка: пространство кучи Java».
Основываясь на предыдущих...
3919 просмотров
schedule
12.03.2024
EOFException в org.apache.hadoop.io.SequenceFile$Reader.init(SequenceFile.java:1508)
Я пытался запустить пример умножения матриц, представленный г-ном Норштадтом по следующей ссылке http://www.norstad.org/matrix-multiply/index.html . Я могу успешно запустить его с помощью hadoop 0.20.2, но я пытался запустить его с помощью hadoop...
3811 просмотров
schedule
18.04.2024
записать данные в hbase
У меня проблема при записи данных в hbase. У меня есть сервер с 4 регионами. Когда я пишу данные и использую ключ radom, данные записываются в любой регион, но они находятся на сервере одного региона. Один сервер занят, три сервера свободны. Как это...
226 просмотров
schedule
10.03.2024
Проблема с настройкой Hadoop CDH4.1.2 с помощью Kerberos
Мой файл журнала узла данных:
*2013-01-28 22:12:05,084 WARN org.apache.hadoop.ipc.Client: Exception encountered while connecting to the server : javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials...
1979 просмотров
schedule
07.04.2024
Как лучше всего хранить и запрашивать большой набор метеорологических данных?
Я ищу удобный способ хранить и запрашивать огромное количество метеорологических данных (несколько ТБ). Подробнее о типе данных посередине вопроса.
Раньше я искал в направлении MongoDB (я использовал его во многих своих предыдущих проектах и...
7148 просмотров
schedule
23.03.2024
Попытка загрузить индексированный файл LZO с помощью LzoPigStorage и слоновой птицы
У меня есть файл журнала со сжатием LZO по умолчанию и файл .index, сгенерированный с помощью Hadoop-LZO, но когда я запускаю простой файл Pig для извлечения 100 лучших записей с помощью LzoPigStorage, я получаю следующее исключение:
Message:...
475 просмотров
schedule
23.03.2024
Как указать корзину S3 в качестве входных данных для EMR
Можно ли вместо копирования в HDFS просто получить массив объектов в корзине S3 для обработки в EMR?
Я пробовал это, и я продолжаю либо получать предупреждения безопасности об отсутствии учетных данных (даже после того, как я добавляю их в конфиги)...
1134 просмотров
schedule
25.05.2024
ОШИБКА org.apache.sqoop.tool.ExportTool — ошибка во время экспорта: задание экспорта не удалось
мы пытаемся экспортировать данные из HDFS в mysql с помощью sqoop и сталкиваемся со следующей проблемой.
Образец данных:
4564,38,153,2013-05-30 10:40:42.767,false,No credentials attempted,,,00 00 00 00 01 64 e6 a6
4565,38,160,2013-05-30...
7907 просмотров
schedule
04.05.2024
Как узнать идентификатор потока заданий, другие параметры кластера в скрипте, запущенном через script-runner.jar
Я запускаю эластичный кластер mapreduce со следующей командной строкой:
$ elastic-mapreduce \
--create \
--num-instances "${INSTANCES}" \
--instance-type m1.medium \
--ami-version 3.0.4 \
--name "${CLUSTER_NAME}" \
--log-uri...
838 просмотров
schedule
06.04.2024
JsonLoader отсутствует в Piggybank
ОШИБКА org.apache.pig.tools.grunt.Grunt — ОШИБКА 1070: не удалось разрешить org.apache.pig.piggybank.storage.JsonLoader с помощью импорта...
Когда я смотрю на pig-0.12.1/contrib/piggybank/java/src/main/java/org/apache/pig/piggybank/,...
938 просмотров
schedule
19.04.2024
Чтение файла последовательности в Hadoop 2.0
Я пытаюсь прочитать файл последовательности в hadoop 2.0, но не могу этого добиться. Я использую приведенный ниже код, который отлично работает в Hadoop 1.0. Пожалуйста, дайте мне знать, если я что-то упустил в 2.0
Configuration conf = new...
339 просмотров
schedule
10.04.2024
Свинья CROSS против реплицированного JOIN
Мне нужно сделать неравноправное соединение в Pig. Первое, что я хочу попробовать, это CROSS + фильтр:
together = CROSS A, B;
filtered = FILTER together BY (JOIN PREDICATE);
Однако одно из отношений определенно достаточно мало, чтобы...
1642 просмотров
schedule
11.05.2024
Hadoop в кластере Maui+Torque
У меня есть кластер с Torque+Maui. Можно ли установить Hadoop в том же кластере? Каковы плюсы и минусы этого, если это возможно?
452 просмотров
schedule
05.05.2024
Как развернуть Spark, чтобы он мог максимально использовать ресурсы
У меня 10 серверов (16 ГБ памяти, 8 ядер) и я хочу развернуть Hadoop и Spark, можете ли вы сказать мне, какой план может обеспечить максимальное использование ресурсов?
немедленное развертывание;
установить Openstack, развернуть среду на...
160 просмотров
schedule
30.05.2024
Загрузка большого csv в hadoop через Hue сохранит только блок размером 64 МБ
Я использую Cloudera quickstart vm 5.1.0-1
Я пытаюсь загрузить свой csv объемом 3 ГБ в Hadoop через Hue, и до сих пор я пробовал: - Загрузите csv в HDFS и, в частности, в папку, называемую наборами данных, расположенную в / user / hive / datasets -...
3659 просмотров
schedule
07.04.2024
hive 0.14: невозможно вставить данные в поддерживаемую ACID таблицу без сегментов
В hive 0.14 у меня есть таблица с транзакцией, поддерживаемой ACID.
create table HiveTest
(EmployeeID Int,FirstName String,Designation String,
Salary Int,Department String)
clustered by (department) into 3 buckets
stored as orc TBLPROPERTIES...
3645 просмотров
schedule
20.05.2024
Проблема с созданием векторов из текста в Mahout
Я использую Mahout 0.9 (установлен на HDP 2.2) для обнаружения темы (алгоритм скрытого распределения Drichlet). У меня есть текстовый файл, хранящийся в каталоге inputraw , и я выполнил следующие команды по порядку.
команда №1:
mahout...
172 просмотров
schedule
05.04.2024
Mahout IntDoubleProcedure NoClassDefFoundError
Я использую школьный сервер, на котором уже есть хаупы и махауты. Но мне нужно разобрать csv на вектор. Поэтому я попробовал чужой код из git. Но у меня есть следующее исключение, которое я не могу решить.
dcmac04:dir username$ java -jar...
89 просмотров
schedule
22.03.2024
Установка Ooozi выдает ошибку MojoExceptiion. узи версия 4.2.0
Журнал ошибок
[INFO] BUILD FAILURE
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 14:13.610s
[INFO] Finished at: Mon Aug 03 04:57:58 IST 2015
[INFO] Final Memory: 115M/243M
[INFO]...
504 просмотров
schedule
12.03.2024