Привет, мне нужна лямбда-функция, которая будет читать и записывать файлы паркета и сохранять их на S3. Я попытался создать пакет развертывания с библиотеками, которые мне нужны для использования pyarrow, но я получаю сообщение об ошибке инициализации для библиотеки cffi:
module initialization error: [Errno 2] No such file or directory: '/var/task/__pycache__/_cffi__x762f05ffx6bf5342b.c'
Могу ли я даже создавать паркетные файлы с помощью AWS Lambda? У кого-нибудь была похожая проблема?
Я хотел бы сделать что-то вроде этого:
import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd
df = pd.DataFrame([data]) #data is dictionary
table = pa.Table.from_pandas(df)
pq.write_table(table, 'tmp/test.parquet', compression='snappy')
table = pq.read_table('tmp/test.parquet')
table.to_pandas()
print(table)
Или каким-то другим способом, просто нужно уметь читать и записывать паркетные файлы, сжатые snappy.