PYTHON - РУКОВОДСТВО - ОБРАЩЕНИЕ ДАННЫХ

7 функций Python для обработки данных менее чем за 5 минут

Пошаговое руководство по основным, но тем не менее наиболее часто используемым функциям обработки данных

1. Введение

Привет, меня зовут Грегор, я специалист по данным или тот, кому большую часть времени нужно оценивать и очищать данные. Мне в равной степени нравится работать с Python / Pandas и R / tidyverse в своих проектах. Недавно я поделился статьей, в которой описал свои наиболее часто используемые функции R для обработки данных. Я подумал, что было бы неплохо рассказать, как использовать эти функции в Python, а точнее в Pandas.

В следующем разделе я описываю свою техническую настройку для этой статьи, чтобы сразу же использовать примеры из этой статьи. Затем в разделе 3 я представляю семь функций, использующих набор данных Gapminder. Если у вас есть какие-либо вопросы или комментарии, пожалуйста, поделитесь ими со мной.

2 Настройка

Чтобы продемонстрировать функции, я воспользуюсь набором данных Gapminder. Набор данных Gapminder содержит данные о продолжительности жизни, ВВП на душу населения и численности населения страны за многие десятилетия. Кроме того, я использую Jupyter Notebooks в сочетании с Pandas.

Эти семь функций являются частью пакета Pandas. Если вам интересно, как я структурирую свой код, это называется цепочкой методов или конвейером (в сообществе R). Я объясняю основы в одной из моих других статей.

3 Семь самых простых, но все же наиболее часто используемых функций обработки данных

семь функций позволяют вам выбирать и переименовывать определенные столбцы, сортировать и фильтровать. набора данных, создать и вычислить новые столбцы и суммировать значения. Я буду использовать данные Gapminder для каждой функции, чтобы упростить отслеживание и применить их к вашим наборам данных. Обратите внимание, чем дальше мы пойдем, я буду использовать комбинацию этих функций.

3.1 filter () - Выбор столбцов в наборе данных

Выбор только столбцов континент, год и pop.

Выбор всех столбцов, в названии которых есть co, с помощью оператора like. Пожалуйста, ознакомьтесь с документацией, чтобы узнать о дополнительных полезных функциях.

3.2 rename () - переименование столбцов

Переименуйте столбцы год в Year и lifeExp в Life Expectancy.

3.3 sort_values ​​() - Сортировка набора данных

Сортировать по году.

Сортировать по lifeExp и по году (по убыванию).

3.4 query () - Фильтрация строк в наборе данных

Отфильтруйте строки с годом 1972.

Отфильтруйте строки с годом 1972 и ожидаемой продолжительностью жизни ниже среднего.

Отфильтруйте строки с годом 1972 и с ожидаемой продолжительностью жизни ниже среднего, а для страны либо Боливия ИЛИ Ангола.

3.5 assign () и лямбда - создать новые столбцы в наборе данных

Создайте столбец, который объединяет информацию о континенте и стране, и другой столбец, в котором отображается округленная информация lifeExp.

3.6 agg () - Создание сводных вычислений в вашем наборе данных

Для всего набора данных рассчитайте среднее значение и стандартное отклонение для совокупности и ожидаемой продолжительности жизни.

3.7 groupby () - Группируйте набор данных и создавайте сводные вычисления

Функция agg () настолько полезна без функции groupby (). Использование обоих вместе - мощный способ создания новых наборов данных. В приведенном ниже примере я сгруппирую набор данных по континентам, а затем создам сводки для населения и lifeExp.

Также можно группировать более чем по одному столбцу. В следующем примере я использую groupby () с континентом и годом.

4. Вывод

В этой статье я показал вам свои наиболее часто используемые функции Pandas для управления наборами данных. Я предоставил вам несколько примеров, которые, надеюсь, станут идеальной базой для того, чтобы вы опробовали их для каждой функции.

Если вы хотите узнать больше о Pandas, обязательно ознакомьтесь с официальной документацией, а также с книгой Python для анализа данных. Пожалуйста, дайте мне знать, что вы думаете и какие функции вы используете чаще всего. Спасибо!