Что такое федеративное обучение?

В машинном обучении мы обычно собираем все доступные данные в одном месте для обучения, что позволяет упростить и повысить эффективность процесса обучения. Однако, учитывая потребность в цифровой конфиденциальности, передача данных в централизованное хранилище не всегда возможна.

В Федеративном обучении модель обучается на нескольких децентрализованных устройствах, каждое из которых имеет свои собственные образцы данных, которые не передаются другим устройствам.

Как именно это работает?

Всем граничным устройствам или узлам поручено обучать модель на собственных данных. Затем параметры из каждой модели объединяются для построения глобальной модели, представляющей данные со всех узлов.

Существует две основные формы федеративных систем обучения:

  • Централизованное федеративное обучение: на центральный сервер возложена задача координировать обучение всех остальных узлов. Этот центральный узел получает параметры модели от других узлов и отвечает за компиляцию глобальной модели, а также за определение архитектуры глобальной модели.
  • Децентрализованноефедеративное обучение: узлы в сети взаимодействуют друг с другом для построения глобальной модели, что полностью устраняет необходимость в центральном сервере.

Поскольку между узлами происходит обмен только параметрами модели, данные для каждого узла остаются закрытыми. Это важно для построения моделей в областях, где цифровая конфиденциальность является приоритетом, например, в кибербезопасности и здравоохранении.

Преимущества

Помимо конфиденциальности данных, федеративное обучение предлагает множество функций, которые трудно найти в традиционном машинном обучении.

  • Многозадачное обучение: после того, как глобальная модель скомпилирована, ее можно распространить по узлам в сети и в сочетании с переносным обучением настроить модель в соответствии с потребностями конкретного узла.
    Эта новая модель имеет преимущество, заключающееся в том, что она была предварительно обучена на данных, недоступных для этого узла. Часто у любого отдельного узла недостаточно данных для обучения эффективной модели.
  • Обучение кластеризованных узлов: можно обучать несколько глобальных моделей специально для разных кластеров узлов, имеющих общие характеристики. Если два узла строят локальные модели со схожими параметрами, вполне вероятно, что данные и потребности этих двух узлов также схожи.
    Обмен глобальными моделями между похожими узлами может обеспечить более высокую точность и настройку, чем использование одной глобальной модели.
  • Гомоморфное шифрование: эта специальная схема позволяет нам выполнять вычисления непосредственно с зашифрованными данными. Благодаря этому параметры модели, пересылаемые между машинами, никогда не нужно расшифровывать в процессе обучения. Это создает еще один серьезный уровень защиты и конфиденциальности для задействованных узлов.

Недостатки

Федеративное обучение дает нам конфиденциальность, но за это приходится платить. Существуют неотъемлемые недостатки использования федеративной схемы:

  • Требуется высокая/постоянная пропускная способность между узлами, поскольку параметры модели могут быть очень большими по размеру и часто нуждаются в совместном использовании с другими узлами.
  • На каждом узле требуется локальная вычислительная мощность, особенно в децентрализованных схемах.
  • Каждый узел должен быть независимо подготовлен с помощью фреймворка и интерфейсов API для участия.
  • Данные, не относящиеся к IID: в традиционном машинном обучении мы можем нормализовать наш совокупный набор данных и исправить несбалансированное распределение. При федеративном обучении данные каждого узла имеют собственное уникальное распределение образцов. Данные, отличные от IID, или независимо и одинаково распределенные данные, являются серьезным препятствием в обучении глобальной модели и могут сильно повлиять на эффективность обучения. Простейшим примером этого является один узел, имеющий больший набор данных, чем другой узел.
  • Конфиденциальность данных может сделать модели уязвимыми для бэкдор-атак. Вредоносный узел может преднамеренно вносить вредоносные параметры в глобальную модель, медленно обучая его определенному ответу на определенные входные данные. Каждый узел должен быть проверен, прежде чем он может быть принят в сеть узлов.

Федеративное обучение никуда не денется

Федеративное обучение быстро стало следующим шагом в области вычислительного интеллекта, цифровой справедливости и обеспечения конфиденциальности. Он решает многие проблемы, связанные с централизованным машинным обучением, и ставит интересы пользователей на первое место.

В мире, который все больше внимания уделяет как конфиденциальности данных, так и машинному обучению, важно предвидеть и продвигать пересечение этих двух концепций.