сегодня мы рассмотрим несколько задач и алгоритмов обучения без учителя:
• Кластеризация: цель состоит в том, чтобы сгруппировать похожие экземпляры вместе в кластеры. Это отличный инструмент для анализа данных, сегментации клиентов, рекомендательных систем, поисковых систем, сегментации изображений, частично контролируемого обучения, уменьшения размерности и многого другого.
• Обнаружение аномалий: цель состоит в том, чтобы узнать, что такое «нормальные» данные. выглядит так, и используйте это для обнаружения аномальных случаев, таких как дефектные элементы на производственной линии или новая тенденция во временном ряду.
• Оценка плотности: это задача оценки функции плотности вероятности (PDF) случайный процесс, создавший набор данных. Это обычно используется для обнаружения аномалий: экземпляры, расположенные в регионах с очень низкой плотностью, скорее всего, будут аномалиями. Это также полезно для анализа и визуализации данных.

Идя дальше, я описываю здесь только кластеризацию, остальные два я расскажу в своем следующем блоге.

Кластеризация

Наслаждаясь походом в горы, вы натыкаетесь на растение, которое никогда раньше не видели. Вы оглядываетесь и замечаете еще несколько. Они не совсем идентичны, но достаточно похожи, чтобы вы знали, что они, скорее всего, принадлежат к одному и тому же виду (или, по крайней мере, к одному и тому же роду). Вам может понадобиться ботаник, чтобы сказать вам, что это за вид, но вам, конечно, не нужен эксперт, чтобы идентифицировать группы похожих объектов. Это называется кластеризацией:это задача выявления похожих экземпляров и распределения их по кластерам, т. е. группам похожих экземпляров.

Кластеризация используется в самых разных приложениях, в том числе:
• Для сегментации клиентов: вы можете группировать своих клиентов на основе их покупок, активности на вашем веб-сайте и т. д. Это полезно, чтобы понять, кто ваши клиенты и что им нужно, чтобы вы могли адаптировать свои продукты и маркетинговые кампании для каждого сегмента. Например, в рекомендательных системах может быть полезно предлагать контент, который понравился другим пользователям в том же кластере.
• Для анализа данных: при анализе нового набора данных часто бывает полезно сначала обнаружить кластеры похожих экземпляров, т.к. зачастую легче анализировать кластеры по отдельности.
• В качестве метода уменьшения размерности: после того, как набор данных был сгруппирован, обычно можно измерить близость каждого экземпляра к каждому кластеру (близость — это любая мера того, насколько хорошо экземпляр помещается в кластер). Затем вектор признаков каждого экземпляра x можно заменить вектором сходства его кластера. Если есть k кластеров, то этот вектор k-мерный. Как правило, он имеет гораздо меньшую размерность, чем исходный вектор признаков, но может сохранить достаточно информации для дальнейшей обработки.
• Для обнаружения аномалий (также называемого обнаружением выбросов): любой экземпляр, который имеет низкое сходство со всеми кластерами, скорее всего быть аномалией. Например, если вы группируете пользователей своего веб-сайта на основе их поведения, вы можете обнаружить пользователей с необычным поведением, например необычным количеством запросов в секунду и т. д. Обнаружение аномалий особенно полезно при обнаружении дефектов в производстве или для обнаружения мошенничества.
• Для частично контролируемого обучения: если у вас есть только несколько меток, вы можете выполнить кластеризацию и распространить метки на все экземпляры в одном и том же экземпляре. кластер. Это может значительно увеличить количество меток, доступных для последующего алгоритма обучения с учителем, и, таким образом, повысить его производительность.