От кодировок к встраиваниям

концепции и основы: от SVD до нейронных сетей

В этой статье мы поговорим о двух фундаментальных концепциях в области представления данных и машинного обучения: Кодирование и Встраивание. Содержание этой статьи частично взято из одной из моих лекций по курсу CS246 Mining Massive DataSet (MMDS) в Стэнфордском университете. Надеюсь, вы найдете это полезным.

Введение

Все методы машинного обучения (ML) работают с входными векторами объектов, и почти все из них требуют, чтобы входные объекты были числовыми. С точки зрения машинного обучения существует четыре типа функций:

Числовые (непрерывные или дискретные): числовые данные могут характеризоваться непрерывными или дискретными данными. Непрерывные данные могут принимать любое значение в пределах диапазона, тогда как дискретные данные имеют разные значения. Примером непрерывной числовой переменной является `height`, а примером дискретной числовой переменной — `age`.
Категорийный (порядковый или номинальный): категориальные данные представляют такие характеристики, как цвет глаз и родной город. Категориальные данные могут быть порядковыми или именными. В порядковой переменной данные делятся на упорядоченные категории, которые ранжируются определенным образом. Примером может служить `уровень навыков`, который принимает значения [`beginner`, `intermediate`, `advanced`]. Номинальная переменная не имеет порядка среди своих значений. Примером может служить `цвет глаз`, который принимает значения [`черный`, `коричневый`, `синий`, `зеленый`].
Временной ряд. Временной ряд – это последовательность чисел, собранных через равные промежутки времени за определенный период времени. Эти данные упорядочены во времени в отличие от предыдущих переменных. Примером может служить `средняя цена продажи дома за несколько лет в США`.
Текст. Любой документ представляет собой текстовые данные, которые мы часто представляем как «мешок слов».

Чтобы передать какие-либо переменные в модель ML, нам необходимо преобразовать их в числовые значения. И кодирование, и методы внедрения позволяют добиться этой цели.

Кодирование

Кодирование — это процесс преобразования необработанных данных, таких как текст, изображения или аудио, в структурированный числовой формат, который может быть легко обработан компьютерами. Существует два способа кодирования категориальной переменной:

1️⃣ Целочисленное кодирование

От кодировок к встраиваниям

концепции и основы: от SVD до нейронных сетей

Введение

Кодирование

Вопросы по теме