Как указать корзину S3 в качестве входных данных для EMR

Можно ли вместо копирования в HDFS просто получить массив объектов в корзине S3 для обработки в EMR?

Я пробовал это, и я продолжаю либо получать предупреждения безопасности об отсутствии учетных данных (даже после того, как я добавляю их в конфиги) (это из-за того, что я просто делаю новый путь ("s3n://...")) или запускаю jar говорит мне, что мне не хватает SDK AWS, когда я пытаюсь использовать SDK AWS для доступа к своей корзине.

amazon-s3 hadoop elastic-map-reduce

Julian 13.08.2013 источник

comment

Вы используете ЭМИ? Если да, находится ли учетная запись S3 под той же учетной записью aws? Если да, вам не нужно предоставлять какие-либо учетные данные безопасности. Пример команды должен выглядеть так:

ruby elastic-mapreduce --jobflow <id> --jar s3://<jar-location>/myJob.jar --arg s3://<input-path> --arg s3://<output-path> --step-name "My Job"

- Amar 14.08.2013

comment

@Amar Что делать, если учетная запись S3 не находится под той же учетной записью aws. Как вы указываете учетные данные безопасности в этом случае? - Abhishek Jain 23.08.2013

comment

Я не уверен, что это сработает или нет, но попробуйте это: s3://<access-key>:<secret-key>@<input-path>, что-то вроде s3://RYWX12N9WCY42XVOL8WH:Xqj1%2FNMvKBhl1jqKlzbYJS66ua0e8z7Kkvptl9bv@mybucket/dest - Amar 24.08.2013

Ответы (1)

arrow_upward
0
arrow_downward

Вы можете добавить его в раздел аргументов

При добавлении его в качестве шага выберите CustomJAR

Расположение JAR: s3://inbsightshadoop/jar/loganalysis.jar
Основной класс: None
Аргументы: s3://inbsightshadoop/insights-input s3://inbsightshadoop/insights-output
Действия при сбое : Завершить кластер

user3652630 21.08.2014

Как указать корзину S3 в качестве входных данных для EMR

Ответы (1)

Вопросы по теме