PYTHON - РУКОВОДСТВО - ОБРАЩЕНИЕ ДАННЫХ
7 функций Python для обработки данных менее чем за 5 минут
Пошаговое руководство по основным, но тем не менее наиболее часто используемым функциям обработки данных
1. Введение
Привет, меня зовут Грегор, я специалист по данным или тот, кому большую часть времени нужно оценивать и очищать данные. Мне в равной степени нравится работать с Python / Pandas и R / tidyverse в своих проектах. Недавно я поделился статьей, в которой описал свои наиболее часто используемые функции R для обработки данных. Я подумал, что было бы неплохо рассказать, как использовать эти функции в Python, а точнее в Pandas.
В следующем разделе я описываю свою техническую настройку для этой статьи, чтобы сразу же использовать примеры из этой статьи. Затем в разделе 3 я представляю семь функций, использующих набор данных Gapminder. Если у вас есть какие-либо вопросы или комментарии, пожалуйста, поделитесь ими со мной.
2 Настройка
Чтобы продемонстрировать функции, я воспользуюсь набором данных Gapminder. Набор данных Gapminder содержит данные о продолжительности жизни, ВВП на душу населения и численности населения страны за многие десятилетия. Кроме того, я использую Jupyter Notebooks в сочетании с Pandas.
Эти семь функций являются частью пакета Pandas. Если вам интересно, как я структурирую свой код, это называется цепочкой методов или конвейером (в сообществе R). Я объясняю основы в одной из моих других статей.
3 Семь самых простых, но все же наиболее часто используемых функций обработки данных
семь функций позволяют вам выбирать и переименовывать определенные столбцы, сортировать и фильтровать. набора данных, создать и вычислить новые столбцы и суммировать значения. Я буду использовать данные Gapminder для каждой функции, чтобы упростить отслеживание и применить их к вашим наборам данных. Обратите внимание, чем дальше мы пойдем, я буду использовать комбинацию этих функций.
3.1 filter () - Выбор столбцов в наборе данных
Выбор только столбцов континент, год и pop.
Выбор всех столбцов, в названии которых есть co, с помощью оператора like. Пожалуйста, ознакомьтесь с документацией, чтобы узнать о дополнительных полезных функциях.
3.2 rename () - переименование столбцов
Переименуйте столбцы год в Year и lifeExp в Life Expectancy.
3.3 sort_values () - Сортировка набора данных
Сортировать по году.
Сортировать по lifeExp и по году (по убыванию).
3.4 query () - Фильтрация строк в наборе данных
Отфильтруйте строки с годом 1972.
Отфильтруйте строки с годом 1972 и ожидаемой продолжительностью жизни ниже среднего.
Отфильтруйте строки с годом 1972 и с ожидаемой продолжительностью жизни ниже среднего, а для страны либо Боливия ИЛИ Ангола.
3.5 assign () и лямбда - создать новые столбцы в наборе данных
Создайте столбец, который объединяет информацию о континенте и стране, и другой столбец, в котором отображается округленная информация lifeExp.
3.6 agg () - Создание сводных вычислений в вашем наборе данных
Для всего набора данных рассчитайте среднее значение и стандартное отклонение для совокупности и ожидаемой продолжительности жизни.
3.7 groupby () - Группируйте набор данных и создавайте сводные вычисления
Функция agg () настолько полезна без функции groupby (). Использование обоих вместе - мощный способ создания новых наборов данных. В приведенном ниже примере я сгруппирую набор данных по континентам, а затем создам сводки для населения и lifeExp.
Также можно группировать более чем по одному столбцу. В следующем примере я использую groupby () с континентом и годом.
4. Вывод
В этой статье я показал вам свои наиболее часто используемые функции Pandas для управления наборами данных. Я предоставил вам несколько примеров, которые, надеюсь, станут идеальной базой для того, чтобы вы опробовали их для каждой функции.
Если вы хотите узнать больше о Pandas, обязательно ознакомьтесь с официальной документацией, а также с книгой Python для анализа данных. Пожалуйста, дайте мне знать, что вы думаете и какие функции вы используете чаще всего. Спасибо!