Публикации по теме 'data-engineering'


Как удалить __pycache__ из кода Visual Studio
Скрытие метаданных __pycache__ из VS Code IDE Недавно я перешел с PyCharm на Visual Studio Code для своих проектов Python. Однако я столкнулся с проблемой, когда VS Code отображает __pycache__ файлов, что может загромождать Проводник. Это может быть особенно неприятно для тех, кто работает над большими проектами с несколькими модулями и папками, учитывая, что файлы кеша появляются во всех каталогах, где существуют .py модули. Чтобы помочь вам легче перемещаться по каталогам..

Роль AI и ML в обработке данных
Области искусственного интеллекта (ИИ) и машинного обучения (МО) революционизируют то, как мы собираем, обрабатываем и анализируем данные в современном мире, управляемом данными. Поскольку объемы данных продолжают расти экспоненциально, инженерия данных имеет важное значение для организаций, чтобы эффективно использовать возможности ИИ и машинного обучения. В этом сообщении блога Medium мы рассмотрим важную роль ИИ и МО в обработке данных, покажем, как они улучшают обработку данных,..

Использование функций даты, времени и даты и времени в ML
Руководство по кодированию и инженерным функциям даты и времени Пояснение: на изображении показана дата , а также на человеке надеты наручные часы, которые показывают время, отсюда и изображение! вступление Давайте начнем с того, что проясним некоторые вещи. Прежде всего, дата, время и дата-время не совпадают. Pandas имеет только тип даты и времени, в котором каждая ячейка является объектом pandas Timestamp . В пандах, если вы преобразуете столбец, содержащий только дату, в..

Bun v1.0: меняет правила игры в области обработки данных в JavaScript?
JavaScript превратился в универсальный язык, выходящий за рамки традиционной области веб-разработки. В последние годы его популярность в сфере обработки данных выросла в геометрической прогрессии благодаря его гибкости и простоте использования. Node.js с его событийно-ориентированной архитектурой и неблокирующим вводом-выводом стал идеальной средой выполнения для инженеров данных, когда дело доходит до обработки рабочих нагрузок с интенсивным использованием данных. В архитектурах,..

Как следует сохранять выходные данные заданий Spark ETL (если вы не выполняете запись в базе данных)
Сохранение вывода заданий Spark ETL | Навстречу AI Как следует сохранять выходные данные заданий Spark ETL (если вы не выполняете запись в базе данных) Вступление В этой статье я поделюсь своими мыслями о том, как лучше всего сохранить вывод заданий Spark ETL, чтобы впоследствии было легче выполнять аналитическую работу. Код для воспроизведения примеров можно найти здесь . Настройка кластера Кластер, который я использовал для запуска кода в этой статье, размещен на..

7 проектов по инженерии данных, которые стоит включить в свое резюме
Запуск новых проектов по обработке данных может быть сложной задачей. Легко застрять на поиске нужных данных и выборе инструментов, которые следует использовать. И многие из моих подписчиков на Youtube согласны с тем, что они подтвердили в недавнем опросе, что начать новый проект по обработке данных было сложно. Вот основные проблемы, которые они назвали. Определение подходящих наборов данных для проекта. Выбор подходящих инструментов для использования.

Проектирование эффективных конвейеров данных: понимание компонентов и общих шаблонов проектирования
Проектирование эффективных конвейеров данных: понимание компонентов и общих шаблонов проектирования Конвейер данных — это ряд процессов, которые перемещают данные из одной системы в другую. Эти процессы могут включать прием данных, преобразование данных, проверку данных, загрузку данных и мониторинг данных. Цель конвейера данных — обеспечить бесперебойную и эффективную передачу данных от одного этапа к другому, а также поддерживать…