У меня есть огромные наборы данных с записями MM+, и я пытаюсь присвоить каждой записи уникальный идентификатор. Я пробовал код ниже, но это занимает много времени, так как идентификатор строки является последовательным. Я попытался настроить параметры памяти для оптимизации работы, но не смог добиться большой производительности.
пример фрагмента:
JavaRDD<String> rawRdd=......
rawRdd.zipWithIndex()
.mapToPair(t->new Tuple2<Long,String>(t._2,t._1))
Есть ли лучший способ назначить уникальный идентификатор? Благодарность