У меня есть :
- миллионы файлов на s3
- формат несовместим с https://github.com/databricks/spark-csv, поскольку он ужасная спецификация DSV, которая требует особой обработки, строка заголовка начинается со специального символа, и каждый файл может содержать в себе несколько заголовков (идиосинкразия поставщика), обычно количество столбцов изменяется во времени даже в одном файле (если он имеет несколько заголовков в Это) ...
- у каждого файла есть заголовок, но заголовки меняются (разные поля / столбцы)
- по соображениям производительности мне нужно сделать что-л. вот так:
read.text("s3n://2016/01/*")
Я не могу найти способ получить заголовок и соответствующие ему строки, чтобы обработать его вместе. Imho custom Partitioner
, который будет разделять данные на файл, не может быть записан, а API rdd / dataset / dataframe не предоставляет никаких средств, которые могли бы это сделать ...
Любая идея? Я могу использовать Spark 2.0.0. Мне кажется, что Spark не очень дружелюбен к файлам DSV с заголовками, особенно если заголовки различаются ...
read.text("s3n://2016/01/*")
. См. tech.kinja.com/ < / а>. - person Marcin   schedule 20.05.2016