Публикации по теме 'towards-data-science'


Изучение универсальности иерархической кластеризации: приложения, работа, методы и преимущества
Кластеризация Кластеризация — это метод, используемый в машинном обучении и анализе данных для группировки похожих объектов или точек данных на основе присущих им характеристик или сходств. Целью кластеризации является выявление закономерностей, взаимосвязей или структур в наборе данных без каких-либо предопределенных меток или категорий. Проще говоря, кластеризацию можно сравнить с организацией набора элементов в отдельные группы на основе их сходства. Представьте, что у вас..

Что, черт возьми, такое «распределение вероятностей»? {Часть-3} Условия для неспециалистов!
После успешного объяснения моих предыдущих 2 частей блогов статистики, здесь я приношу часть 3, которую я считаю настоятельно рекомендуемой на данном этапе после части 2 в это время! и Часть1 , Часть2 — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — Совет для этого блога , сколько много ли нам нужно знать по математике и статистике? Миф: чтобы стать специалистом по данным или инженером по машинному обучению, нужно очень хорошо разбираться в математике и..

Более глубокий взгляд на алгоритмы спуска
Обзор и сравнение различных алгоритмов спуска Основные требования для понимания этой статьи Линейная алгебра Многопараметрическое исчисление Основная идея выпуклых функций Как мы все знаем, оптимизация - один из важнейших факторов машинного обучения. Таким образом, наш интерес представляет алгоритм, который оптимизирует функции за разумное время. Один из наиболее распространенных алгоритмов, используемых сегодня, - это градиентный спуск. Сегодня мы рассмотрим другие алгоритмы..

Графики и машинное обучение: множественная линейная регрессия
В прошлый раз я использовал простую линейную регрессию из браузера Neo4j для создания модели краткосрочной аренды в Остине, штат Техас. В этом посте я продемонстрирую, как с помощью нескольких небольших настроек тот же набор определяемых пользователем процедур может создать модель линейной регрессии с несколькими независимыми переменными. Это называется множественной линейной регрессией. Ранее мы использовали общее количество комнат в списке краткосрочной аренды, чтобы..

Как создать атрибуты только для чтения и атрибуты доказательства удаления в ваших классах Python
Осуществляйте контроль над атрибутами в вашем классе Управляйте своими атрибутами В этом руководстве будет показано, как просто создать атрибуты только для чтения и защиты от удаления в вашем классе Python. Таким образом, к вашим атрибутам может быть применен дополнительный уровень контроля, гарантирующий, что ваш класс используется по назначению. Хотя существует несколько способов создания атрибутов только для чтения и защиты от удаления в Python, использование методов setattr и..

Балансировка масштаба: комплексный подход к несбалансированным наборам данных в Python
Несбалансированные наборы данных — это те, в которых количество выборок, принадлежащих одному классу, значительно больше, чем количество выборок, принадлежащих другому классу (классам). Это может быть проблемой при построении моделей машинного обучения, поскольку модель с большей вероятностью будет предсказывать класс с большим количеством выборок, что приведет к низкой производительности в классе меньшинства.

Все, что вам нужно знать о данных и наборах данных
Данные — это кровь современного общества. От бизнеса до научных исследований данные играют решающую роль в управлении процессами принятия решений и раскрытии ценных идей. Являетесь ли вы аналитиком данных, исследователем или просто интересуетесь информацией, которой владеете, понимание ваших данных или набора данных имеет важное значение. В этой статье мы рассмотрим все, что вам нужно знать о ваших данных, от их определения до ключевых компонентов и аспектов. Что такое данные?..