Публикации по теме apache-spark

Публикации по теме 'apache-spark'

Apache Spark за 100 секунд

Spark — это распределенная вычислительная среда с открытым исходным кодом, которая приобрела огромную популярность в мире больших данных. Впервые он был разработан в Калифорнийском университете в Беркли, а затем передан в дар Apache Software Foundation. Проект значительно вырос с момента его создания в 2010 году, и теперь он поддерживает ряд языков программирования, включая Java, Python и Scala. Spark стал популярным благодаря своей способности обрабатывать крупномасштабные данные..

Конвейер высокопроизводительного машинного обучения с ускорением на GPU

Автор: Лэй Чжан . В этом блоге мы подробно рассказываем о том, как в настоящее время команда Adobe по обслуживанию AI/ML работает с NVIDIA над созданием конвейера высокопроизводительного машинного обучения на основе графического процессора. Даже бренды с самыми лояльными клиентами должны убедиться, что их маркетинговые сообщения эффективны и привлекательны. Для брендов становится все более важной задачей повысить вовлеченность пользователей и справиться с усталостью с помощью..

Разработка приложений с низким кодом может способствовать более широкому внедрению Apache Spark на предприятии

Распространение Apache Spark растет, но сложности остаются Apache Spark вышел за рамки этапа раннего внедрения и теперь является основным. Крупные предприятия, работающие с данными, обращаются к Spark для решения всех задач по обработке данных, начиная от загрузки через ETL и обработки качества данных и заканчивая задачами расширенной аналитики и машинного обучения. Однако, несмотря на растущую популярность, Spark все еще развивается. Наряду с крутой кривой обучения разработчикам..

Полное руководство по настройке PySpark в Google Colab

PySpark - это Python API для Apache Spark, который позволяет использовать простоту Python и мощность Apache Spark для укрощения больших данных. Изучение PySpark может повысить вашу рыночную стоимость. Согласно опросу O’Reilly , обучение Spark может повлиять на вашу зарплату больше, чем получение степени доктора философии! Однако настройка Pyspark на персональном компьютере - долгая задача , которая занимает много памяти на вашем компьютере и может отпугнуть вас от начала..

Вопросы по теме 'apache-spark'

Как развернуть Spark, чтобы он мог максимально использовать ресурсы

У меня 10 серверов (16 ГБ памяти, 8 ядер) и я хочу развернуть Hadoop и Spark, можете ли вы сказать мне, какой план может обеспечить максимальное использование ресурсов? немедленное развертывание; установить Openstack, развернуть среду на...

160 просмотров

30.05.2024

почему моя работа с потоковой передачей искры становится медленнее

У меня есть задание, которое получает данные от Kafka каждые 10 секунд, а затем я форматирую данные и вставляю их в cassandra, но это очень сбивает с толку, что моя работа становится все медленнее и медленнее. Согласно моей статистике, каждые 10...

1519 просмотров

python cassandra apache-spark pyspark spark-streaming

22.04.2024

Прогнозирование цены Bicoin с использованием spark и scala

Я пытаюсь построить модель прогнозирования цены биткойна, используя Apache spark и scala. Я предварительно обработал данные и построил следующий формат: Отметка времени цена биткойна цена в долларах США МаксЦена минЦена числоторгов...

152 просмотров

apache-spark scala linear-regression

18.04.2024

Как обрабатывать файлы, каждый из которых имеет собственный заголовок с разным количеством столбцов с помощью Apache Spark?

У меня есть : миллионы файлов на s3 формат несовместим с https://github.com/databricks/spark-csv , поскольку он ужасная спецификация DSV, которая требует особой обработки, строка заголовка начинается со специального символа, и каждый файл...

214 просмотров

apache-spark

09.05.2024

Как сбрасывать сообщения в консоли при использовании spark-submit?

Когда я запускаю задание spark-submit с scala , я вижу много сообщений о состоянии в консоли. Но я хотел бы видеть только свои отпечатки. Можно ли поставить какой-нибудь параметр, чтобы не видеть эти сообщения?

488 просмотров

apache-spark spark-submit

10.05.2024

Как вывести данные искры в файл csv с отдельными столбцами?

Мой код 1st извлекает данные с помощью регулярного выражения и записывает эти данные в текстовый файл (строковый формат). Затем я попытался создать фрейм данных из содержимого текстового файла, чтобы у меня были отдельные столбцы, что привело к...

2792 просмотров

python csv apache-spark pyspark apache-spark-sql

09.04.2024

Развернуть приложение драйвера искры без отправки искры

Предположим, у нас есть программа драйвера искры, написанная следующим образом: public class SimpleApp { public static void main(String[] args) { String logFile = "YOUR_SPARK_HOME/README.md"; // Should be some file on your system...

5173 просмотров

java apache-spark

11.04.2024

Как сохранить фрейм данных в HBase?

У меня есть df со схемой, также создайте таблицу в HBase с помощью phoenix. Я хочу сохранить этот df в HBase с помощью spark. Я попробовал описания в следующей ссылке и запустил искровую оболочку с зависимостями плагина phoenix. spark-shell...

1597 просмотров

apache-spark dataframe phoenix

30.04.2024

Spark обеспечивает параллельную перекрестную проверку для API Scala

Pyspark предлагает прекрасную возможность распараллелить перекрестную проверку моделей через https://github.com/databricks/spark-sklearn как простая замена sklearn GridSearchCV на from spark_sklearn import GridSearchCV Как я могу добиться...

1010 просмотров

apache-spark scala apache-spark-ml cross-validation

01.05.2024

Scala: ошибка компиляции: не найден тип

Я начал изучать Spark \ Scala \ GraphX, чтобы использовать его с Pregel, я нашел здесь простой код: http://www.cakesolutions.net/teamblogs/graphx-pregel-api-an-example и хотел попробовать. Итак, я попытался скомпилировать этот код, как я думал, что...

3419 просмотров

compiler-errors apache-spark scala spark-graphx

01.06.2024

MultilayerPerceptronClassifier в Spark. Слои и странные ошибки

Я продолжаю сталкиваться с некоторыми странными ошибками при использовании разных значений параметра Layers[] в MultilayerPerceptronClassifier. например для тех же данных: int[] layers = {100, 98, 2} new...

1545 просмотров

apache-spark scala neural-network apache-spark-mllib perceptron

24.03.2024

Улей запросов Pyspark очень медленный, даже окончательный результат довольно мал

Я использую spark 2.0.0 для запроса таблицы кустов: мой sql: select * from app.abtestmsg_v limit 10 Да, я хочу получить первые 10 записей из представления app.abtestmsg_v . Когда я запускаю этот sql в spark-shell, он работает очень...

924 просмотров

apache-spark pyspark apache-spark-sql

10.04.2024

Spark java.io.IOException: в задании не указаны входные пути

У меня есть следующая ошибка: java.io.IOException: No input paths specified in job Когда я выполняю следующую строку: val df = sqlContext.read.json("file://home/test.json") Любые идеи?

1163 просмотров

json apache-spark scala ioerror

27.05.2024

Потоковая передача Spark + Accumulo — сериализация BatchWriterImpl

Я ищу коннекторы Spark Streaming + Accumulo и пример полного использования. В настоящее время я пытаюсь записать результаты потоковой передачи Spark в таблицу Accumulo, но получаю NotSerializableException для BatchWriter. Может ли кто-нибудь...

302 просмотров

apache-spark spark-streaming accumulo

19.03.2024

Процесс журнала сервера приложений

У меня есть требование от моего клиента обработать файл журнала сервера приложений (Tomcat) для внутреннего сервера приложений на основе REST, который развернут в кластере. Клинт хочет создать отчет «доступ» и «частота» из этих данных с разными...

78 просмотров

apache-kafka apache-spark hadoop2 flume hadoop-streaming

03.06.2024

Использование spark sql DataFrameWriter для создания внешней таблицы Hive

В рамках процесса интеграции данных, над которым я работаю, мне необходимо сохранить Spark SQL DataFrame в качестве внешней таблицы Hive. Мои ограничения на данный момент: В настоящее время ограничено Spark 1.6 (v1.6.0) Необходимо сохранить...

2551 просмотров

apache-spark hive pyspark-sql spark-dataframe

19.05.2024

Кеш Spark 1.6 Dataframe работает некорректно

Я понимаю, что если у меня есть фрейм данных, если я кэширую его () и запускаю действие, подобное df.take(1) или df.count (), он должен вычислять фрейм данных и сохранять его в памяти, и всякий раз, когда этот кешированный фрейм данных вызывается в...

2248 просмотров

apache-spark apache-spark-sql spark-dataframe

11.04.2024

Как сгенерировать уникальный идентификатор для каждой искры записи

У меня есть огромные наборы данных с записями MM+, и я пытаюсь присвоить каждой записи уникальный идентификатор. Я пробовал код ниже, но это занимает много времени, так как идентификатор строки является последовательным. Я попытался настроить...

910 просмотров

java apache-spark

24.03.2024

AWS EMR Spark: ошибка: не удается загрузить основной класс из JAR

Я пытаюсь отправить искровое задание в кластер AWS EMR с помощью консоли AWS. Но это не удается: Cannot load main class from JAR . Задание выполняется успешно, когда я указываю основной класс как --class в опции Arguments в Консоль AWS EMR->...

3496 просмотров

apache-spark amazon-emr amazon-data-pipeline

30.03.2024

Запрос базы данных куста с использованием контекста куста, созданного в искре 2.3.0

Я могу программно создать контекст улья на spark 1.6.0, используя: val conf = new SparkConf().setAppName("SparkTest").setMaster("local") val sc=new SparkContext(conf) val hc = new HiveContext(sc) val actualRecordCountHC = hc.sql("select count(*)...

2121 просмотров

apache-spark hivecontext

08.05.2024