Точечная диаграмма — отличный инструмент для просмотра корреляции между двумя переменными, но когда шума слишком много, это может стать довольно запутанным. Как можно уменьшить шум внутри графика, чтобы легче визуализировать корреляцию?

Что делать, если ваш точечный график настолько зашумлен данными, что не очень понятно, где корреляция? Вот данные из набора данных FIFA23 от Kaggle, чтобы продемонстрировать именно этот сценарий. Как видите, везде есть точки с возможной положительной корреляцией общего показателя по мере увеличения возраста игроков. Какая часть этой корреляции является шумом, а какая реальной? Можем ли мы посмотреть на это по-другому, чтобы понять, куда попадает большинство игроков с возрастом?

Вот 10 альтернатив для просмотра тех же данных и получения лучшего понимания.

1. Перемещайте точки

С этим набором данных, где обе переменные (общая и возраст) дискретны, мы можем колебать точки, чтобы немного яснее увидеть, где находится подавляющее большинство из них. Колебание будет случайным образом назначать небольшие изменения значений для каждой точки, поэтому точка, которая находится в общем 70 и возрасте 30, будет немного изменена на что-то вроде общего 70,25 и возраста 29,89.

С дрожанием графиков мы видим, что тенденция близка к тому, что мы видели раньше, однако крайности не кажутся такими большими, как раньше. Наблюдается более четкое повышение, а затем плато. Поскольку джиттер имеет немного большее значение, учитывая дискретный характер обоих наших значений, я оставлю его для следующих нескольких вариантов разброса.

2. Размер очков

Все еще с включенным дрожанием, я также обновил размер точек. С меньшими точками теперь более видно, где поток данных, а также где данные начинают прореживаться. На данный момент, похоже, наблюдается довольно явное увеличение примерно до 26 лет или около того, когда оно начинает выходить на плато или даже начинает дугообразно снижаться.

3. Прозрачность точек

Пока вы смотрите на этот следующий вариант, я не хочу, чтобы вы беспокоились о своем зрении, оно все еще в полном порядке. Я просто уменьшил прозрачность каждой точки. Идея заключается в том, что точки будут перекрывать друг друга там, где есть несколько точек в одной окрестности, поэтому, делая каждую точку намного более прозрачной, перекрытие этих точек станет намного более четким, таким образом показывая шаблон для большинства точек. значения с течением времени.

4. Добавление линий тренда

На этом этапе мы попробуем что-то другое. Вместо обновления точек, чтобы лучше видеть тренд, я добавил линию тренда, чтобы мы могли лучше видеть форму данных. Линия тренда может следовать нескольким различным методам, таким как линейный, логистический и другие. Поскольку я знал, что данные нелинейны и имеют некоторую форму (благодаря предыдущим вариантам, которые мы рассмотрели), я использовал форму гаммы, чтобы она следовала более полиномиальной кривой. То, что мы видим с линией тренда, — это путь, аналогичный тому, что мы видели в других вариантах, рост до плато, а затем снижение.

5. Отбор проб

Выборка данных противоположна прозрачности. Вместо того, чтобы делать каждую точку визуально менее значимой, мы просто берем меньше очков. Идея здесь заключается в том, что при случайном отборе данных те, которые составляют шум, видимый на диаграмме рассеяния, исчезнут, оставив большинство более легко показать тенденцию. Как мы видим здесь, та же тенденция, которую мы видели раньше, гораздо более очевидна.

6. 2D-плотность

Топография по линиям

Подобно тому, как работает диаграмма плотности, она смотрит, какие области графика имеют наибольшую плотность (большинство точек в местоположении), и строит своего рода топографическую карту поверх нее. Как и в случае с горами, чем выше высота, тем меньше круг, а чем больше круг, тем ниже высота. В этом смысле возвышение — это плотность. Как мы видим, около 20-летнего и 60-летнего общего показателя — это место, где сидит большинство игроков, а затем топография поднимается и стабилизируется около 70-летнего общего показателя к 26 годам, как мы видели раньше.

Топография по градиенту

Вот тот же график, что и выше, за исключением того, что на этот раз он показан градиентом цвета, а не линиями.

7. Прямоугольный биннинг

Другой способ взглянуть на топографию — это биннинг, за исключением того, что таким образом мы объединяем две переменные вместе. Вроде как квадратные футы работают в доме. Мы устанавливаем несколько секций на квадратный фут и подсчитываем количество игроков на этой позиции.

8. Шестиугольный биннинг

Подобно прямоугольному биннингу, на этой диаграмме бины показаны шестиугольной формой. Эта форма имеет больший вес в природе и позволяет легче увидеть визуальное представление. Это очень хорошо, чтобы увидеть, где находится большинство населения, а не только тенденция, которой следует.

9. Сгруппированный точечный график

Диаграмма рассеяния, состоящая из бинов, по существу берет данные и группирует их. Подобно тому, как данные представляются на ящичной диаграмме, мы можем четко видеть распределение каждого графика и то, как среднее значение суммарных значений меняется в зависимости от возраста игроков. Следует отметить, что мы можем создавать группы только для тех, у кого более одного игрока, поскольку здесь используются стандартные отклонения.

10. Тепловая карта

И, наконец, тепловая карта. Четкий и краткий способ увидеть количество для каждой группы и цветовой градиент выше, чтобы помочь визуализировать, как это происходит. Здесь мы видим, что у 20-летних игроков с 60 общим числом игроков было 2053 игрока, и со временем оно исчезает с тем же увеличением и плато, что и раньше.

Использованная литература: