Публикации по теме 'apache-spark'


Apache Spark за 100 секунд
Spark — это распределенная вычислительная среда с открытым исходным кодом, которая приобрела огромную популярность в мире больших данных. Впервые он был разработан в Калифорнийском университете в Беркли, а затем передан в дар Apache Software Foundation. Проект значительно вырос с момента его создания в 2010 году, и теперь он поддерживает ряд языков программирования, включая Java, Python и Scala. Spark стал популярным благодаря своей способности обрабатывать крупномасштабные данные..

Конвейер высокопроизводительного машинного обучения с ускорением на GPU
Автор: Лэй Чжан . В этом блоге мы подробно рассказываем о том, как в настоящее время команда Adobe по обслуживанию AI/ML работает с NVIDIA над созданием конвейера высокопроизводительного машинного обучения на основе графического процессора. Даже бренды с самыми лояльными клиентами должны убедиться, что их маркетинговые сообщения эффективны и привлекательны. Для брендов становится все более важной задачей повысить вовлеченность пользователей и справиться с усталостью с помощью..

Разработка приложений с низким кодом может способствовать более широкому внедрению Apache Spark на предприятии
Распространение Apache Spark растет, но сложности остаются Apache Spark вышел за рамки этапа раннего внедрения и теперь является основным. Крупные предприятия, работающие с данными, обращаются к Spark для решения всех задач по обработке данных, начиная от загрузки через ETL и обработки качества данных и заканчивая задачами расширенной аналитики и машинного обучения. Однако, несмотря на растущую популярность, Spark все еще развивается. Наряду с крутой кривой обучения разработчикам..

Полное руководство по настройке PySpark в Google Colab
PySpark - это Python API для Apache Spark, который позволяет использовать простоту Python и мощность Apache Spark для укрощения больших данных. Изучение PySpark может повысить вашу рыночную стоимость. Согласно опросу O’Reilly , обучение Spark может повлиять на вашу зарплату больше, чем получение степени доктора философии! Однако настройка Pyspark на персональном компьютере - долгая задача , которая занимает много памяти на вашем компьютере и может отпугнуть вас от начала..

Вопросы по теме 'apache-spark'

Как развернуть Spark, чтобы он мог максимально использовать ресурсы
У меня 10 серверов (16 ГБ памяти, 8 ядер) и я хочу развернуть Hadoop и Spark, можете ли вы сказать мне, какой план может обеспечить максимальное использование ресурсов? немедленное развертывание; установить Openstack, развернуть среду на...
160 просмотров

почему моя работа с потоковой передачей искры становится медленнее
У меня есть задание, которое получает данные от Kafka каждые 10 секунд, а затем я форматирую данные и вставляю их в cassandra, но это очень сбивает с толку, что моя работа становится все медленнее и медленнее. Согласно моей статистике, каждые 10...
1519 просмотров

Прогнозирование цены Bicoin с использованием spark и scala
Я пытаюсь построить модель прогнозирования цены биткойна, используя Apache spark и scala. Я предварительно обработал данные и построил следующий формат: Отметка времени цена биткойна цена в долларах США МаксЦена минЦена числоторгов...
152 просмотров
schedule 18.04.2024

Как обрабатывать файлы, каждый из которых имеет собственный заголовок с разным количеством столбцов с помощью Apache Spark?
У меня есть : миллионы файлов на s3 формат несовместим с https://github.com/databricks/spark-csv , поскольку он ужасная спецификация DSV, которая требует особой обработки, строка заголовка начинается со специального символа, и каждый файл...
214 просмотров
schedule 09.05.2024

Как сбрасывать сообщения в консоли при использовании spark-submit?
Когда я запускаю задание spark-submit с scala , я вижу много сообщений о состоянии в консоли. Но я хотел бы видеть только свои отпечатки. Можно ли поставить какой-нибудь параметр, чтобы не видеть эти сообщения?
488 просмотров
schedule 10.05.2024

Как вывести данные искры в файл csv с отдельными столбцами?
Мой код 1st извлекает данные с помощью регулярного выражения и записывает эти данные в текстовый файл (строковый формат). Затем я попытался создать фрейм данных из содержимого текстового файла, чтобы у меня были отдельные столбцы, что привело к...
2792 просмотров

Развернуть приложение драйвера искры без отправки искры
Предположим, у нас есть программа драйвера искры, написанная следующим образом: public class SimpleApp { public static void main(String[] args) { String logFile = "YOUR_SPARK_HOME/README.md"; // Should be some file on your system...
5173 просмотров
schedule 11.04.2024

Как сохранить фрейм данных в HBase?
У меня есть df со схемой, также создайте таблицу в HBase с помощью phoenix. Я хочу сохранить этот df в HBase с помощью spark. Я попробовал описания в следующей ссылке и запустил искровую оболочку с зависимостями плагина phoenix. spark-shell...
1597 просмотров
schedule 30.04.2024

Spark обеспечивает параллельную перекрестную проверку для API Scala
Pyspark предлагает прекрасную возможность распараллелить перекрестную проверку моделей через https://github.com/databricks/spark-sklearn как простая замена sklearn GridSearchCV на from spark_sklearn import GridSearchCV Как я могу добиться...
1010 просмотров

Scala: ошибка компиляции: не найден тип
Я начал изучать Spark \ Scala \ GraphX, чтобы использовать его с Pregel, я нашел здесь простой код: http://www.cakesolutions.net/teamblogs/graphx-pregel-api-an-example и хотел попробовать. Итак, я попытался скомпилировать этот код, как я думал, что...
3419 просмотров

MultilayerPerceptronClassifier в Spark. Слои и странные ошибки
Я продолжаю сталкиваться с некоторыми странными ошибками при использовании разных значений параметра Layers[] в MultilayerPerceptronClassifier. например для тех же данных: int[] layers = {100, 98, 2} new...
1545 просмотров

Улей запросов Pyspark очень медленный, даже окончательный результат довольно мал
Я использую spark 2.0.0 для запроса таблицы кустов: мой sql: select * from app.abtestmsg_v limit 10 Да, я хочу получить первые 10 записей из представления app.abtestmsg_v . Когда я запускаю этот sql в spark-shell, он работает очень...
924 просмотров
schedule 10.04.2024

Spark java.io.IOException: в задании не указаны входные пути
У меня есть следующая ошибка: java.io.IOException: No input paths specified in job Когда я выполняю следующую строку: val df = sqlContext.read.json("file://home/test.json") Любые идеи?
1163 просмотров
schedule 27.05.2024

Потоковая передача Spark + Accumulo — сериализация BatchWriterImpl
Я ищу коннекторы Spark Streaming + Accumulo и пример полного использования. В настоящее время я пытаюсь записать результаты потоковой передачи Spark в таблицу Accumulo, но получаю NotSerializableException для BatchWriter. Может ли кто-нибудь...
302 просмотров
schedule 19.03.2024

Процесс журнала сервера приложений
У меня есть требование от моего клиента обработать файл журнала сервера приложений (Tomcat) для внутреннего сервера приложений на основе REST, который развернут в кластере. Клинт хочет создать отчет «доступ» и «частота» из этих данных с разными...
78 просмотров

Использование spark sql DataFrameWriter для создания внешней таблицы Hive
В рамках процесса интеграции данных, над которым я работаю, мне необходимо сохранить Spark SQL DataFrame в качестве внешней таблицы Hive. Мои ограничения на данный момент: В настоящее время ограничено Spark 1.6 (v1.6.0) Необходимо сохранить...
2551 просмотров

Кеш Spark 1.6 Dataframe работает некорректно
Я понимаю, что если у меня есть фрейм данных, если я кэширую его () и запускаю действие, подобное df.take(1) или df.count (), он должен вычислять фрейм данных и сохранять его в памяти, и всякий раз, когда этот кешированный фрейм данных вызывается в...
2248 просмотров

Как сгенерировать уникальный идентификатор для каждой искры записи
У меня есть огромные наборы данных с записями MM+, и я пытаюсь присвоить каждой записи уникальный идентификатор. Я пробовал код ниже, но это занимает много времени, так как идентификатор строки является последовательным. Я попытался настроить...
910 просмотров
schedule 24.03.2024

AWS EMR Spark: ошибка: не удается загрузить основной класс из JAR
Я пытаюсь отправить искровое задание в кластер AWS EMR с помощью консоли AWS. Но это не удается: Cannot load main class from JAR . Задание выполняется успешно, когда я указываю основной класс как --class в опции Arguments в Консоль AWS EMR->...
3496 просмотров

Запрос базы данных куста с использованием контекста куста, созданного в искре 2.3.0
Я могу программно создать контекст улья на spark 1.6.0, используя: val conf = new SparkConf().setAppName("SparkTest").setMaster("local") val sc=new SparkContext(conf) val hc = new HiveContext(sc) val actualRecordCountHC = hc.sql("select count(*)...
2121 просмотров
schedule 08.05.2024