Параллельная обработка CSV в Go с рабочими пулами

Работа с несколькими файлами CSV может быть ресурсоемкой, особенно при работе с большими наборами данных или многочисленными файлами. Одним из подходов к оптимизации обработки является использование параллелизма и параллелизма, что позволяет выполнять несколько задач одновременно. В Go параллелизм можно легко реализовать с помощью горутин и каналов.

В этом руководстве мы рассмотрим, как использовать рабочие пулы в Go для одновременной обработки нескольких CSV-файлов. Пулы рабочих процессов — это эффективный способ ограничить количество одновременно выполняемых задач, что может помочь предотвратить перегрузку системы или внешних ресурсов. Наш пример продемонстрирует, как читать и обрабатывать несколько CSV-файлов одновременно, выводя их содержимое на консоль.

К концу этого урока вы узнаете:

Как создать шаблон рабочего пула в Go
Как одновременно читать и обрабатывать CSV-файлы с помощью рабочих пулов
Как использовать каналы и горутины для параллельных задач

Следите за новостями, пока мы погружаемся в мир параллелизма в Go и начинаем использовать его мощные функции для эффективной обработки CSV.

Пример на ходу

Код демонстрирует, как создать рабочий пул в Go для одновременной обработки нескольких CSV-файлов и вывода их содержимого на консоль. Давайте пройдемся по коду шаг за шагом.

Импортируйте необходимые пакеты. Эти пакеты необходимы для чтения CSV-файлов, печати вывода, обработки ошибок и управления параллельным выполнением с использованием горутин, каналов и sync.WaitGroup.
Определите структуру Job. Job — это простая структура, представляющая одно задание, которое будет обрабатываться рабочим пулом. Он содержит идентификатор задания и путь к файлу CSV, который необходимо прочитать.
Реализуйте функцию worker. Функция worker обрабатывает задания из канала jobs. Он принимает три аргумента:

id: уникальный идентификатор работника
jobs: канал только для приема для получения Job структур
wg: указатель на sync.WaitGroup для управления завершением воркеров.

Внутри функции worker цикл for перебирает канал jobs, читая и обрабатывая CSV-файлы. Он открывает каждый CSV-файл, считывает его содержимое с помощью пакета csv и выводит каждую запись на консоль. Если возникают какие-либо ошибки, они выводятся на консоль.

4. Функция main инициализирует список путей к CSV-файлам, создает канал jobs, запускает рабочие процессы как горутины, отправляет задания на обработку и ждет завершения всех рабочих процессов с помощью sync.WaitGroup.

Вот подробное объяснение шагов функции main:

а. Определите список путей к CSV-файлам и количество рабочих процессов. Замените пути к файлам в фрагменте files фактическими путями к вашим CSV-файлам.

б. Создайте канал jobs и sync.WaitGroup. Канал jobs используется для передачи Job структур рабочим процессам, а канал sync.WaitGroup используется для ожидания завершения выполнения задач всеми рабочими процессами.

в. Запустите рабочих ждать рабочих мест.

д. Отправляйте задания.

е. Закройте канал заданий, чтобы сигнализировать об окончании обработки — новых данных не ожидается.

package main

import (
 "encoding/csv"
 "fmt"
 "io"
 "log"
 "os"
 "sync"
)

// Job represents a CSV file to be processed
type Job struct {
 id   int
 file string
}

// worker reads the CSV file and prints the details
func worker(id int, jobs <-chan Job, wg *sync.WaitGroup) {
 defer wg.Done()

 for job := range jobs {
  fmt.Printf("Worker %d started reading file %s\n", id, job.file)
  file, err := os.Open(job.file)
  if err != nil {
   log.Printf("Worker %d failed to open file %s: %v\n", id, job.file, err)
   continue
  }

  reader := csv.NewReader(file)
  for {
   record, err := reader.Read()
   if err == io.EOF {
    break
   } else if err != nil {
    log.Printf("Worker %d failed to read from file %s: %v\n", id, job.file, err)
    break
   }

   fmt.Printf("Worker %d job details: %s: %v\n", id, job.file, record)
  }

  file.Close()
  fmt.Printf("Worker %d finished reading file %s\n", id, job.file)
 }
}

func main() {
 // List of files to process
 files := []string{
  "file1.csv",
  "file2.csv",
  "file3.csv",
  "file4.csv",
  "file5.csv"}
 
 // Number of workers
 const numWorkers = 3

 // Create a buffered channel to receive jobs
 jobs := make(chan Job, len(files))

 var wg sync.WaitGroup
 wg.Add(numWorkers)

 // Start workers
 for w := 1; w <= numWorkers; w++ {
  go worker(w, jobs, &wg)
 }

 // Send jobs
 for id, file := range files {
  jobs <- Job{id: id + 1, file: file}
 }
 // Close the channel to signal the workers to stop
 close(jobs)

 // Wait for all workers to finish
 wg.Wait()
}

Вывод

В этом руководстве мы рассмотрели использование рабочих пулов в Go для эффективной одновременной обработки нескольких CSV-файлов. Мы продемонстрировали, как реализовать шаблон рабочего пула с помощью горутин и каналов, что позволяет нам одновременно читать и печатать содержимое CSV-файлов. Реализуя этот шаблон, мы можем значительно улучшить производительность и использование ресурсов при работе с несколькими или большими CSV-файлами. Продолжая работать с Go, рассмотрите возможность использования его мощных функций параллелизма для оптимизации обработки ресурсоемких задач, таких как чтение и обработка файлов CSV.

Если вам нравится читать статьи на Medium и вы заинтересованы в том, чтобы стать участником, я буду рад поделиться с вами своей реферальной ссылкой!

https://medium.com/@adamszpilewicz/membership

Параллельная обработка CSV в Go с рабочими пулами

Вопросы по теме