Как указать корзину S3 в качестве входных данных для EMR

Можно ли вместо копирования в HDFS просто получить массив объектов в корзине S3 для обработки в EMR?

Я пробовал это, и я продолжаю либо получать предупреждения безопасности об отсутствии учетных данных (даже после того, как я добавляю их в конфиги) (это из-за того, что я просто делаю новый путь ("s3n://...")) или запускаю jar говорит мне, что мне не хватает SDK AWS, когда я пытаюсь использовать SDK AWS для доступа к своей корзине.


person Julian    schedule 13.08.2013    source источник
comment
Вы используете ЭМИ? Если да, находится ли учетная запись S3 под той же учетной записью aws? Если да, вам не нужно предоставлять какие-либо учетные данные безопасности. Пример команды должен выглядеть так: ruby elastic-mapreduce --jobflow <id> --jar s3://<jar-location>/myJob.jar --arg s3://<input-path> --arg s3://<output-path> --step-name "My Job"   -  person Amar    schedule 14.08.2013
comment
@Amar Что делать, если учетная запись S3 не находится под той же учетной записью aws. Как вы указываете учетные данные безопасности в этом случае?   -  person Abhishek Jain    schedule 23.08.2013
comment
Я не уверен, что это сработает или нет, но попробуйте это: s3://<access-key>:<secret-key>@<input-path>, что-то вроде s3://RYWX12N9WCY42XVOL8WH:Xqj1%2FNMvKBhl1jqKlzbYJS66ua0e8z7Kkvptl9bv@mybucket/dest   -  person Amar    schedule 24.08.2013


Ответы (1)


Вы можете добавить его в раздел аргументов

При добавлении его в качестве шага выберите CustomJAR

Расположение JAR: s3://inbsightshadoop/jar/loganalysis.jar
Основной класс: None
Аргументы: s3://inbsightshadoop/insights-input s3://inbsightshadoop/insights-output
Действия при сбое : Завершить кластер

person user3652630    schedule 21.08.2014