1. pd.read_csv, pd.read_excel:
Первая функция, о которой следует упомянуть, и один из наиболее важных методов Pandas — это чтение файлов CSV (значения, разделенные запятыми), Excel. Функции говорят сами за себя. Они используются для чтения файлов CSV и Excel в формате Pandas DataFrame.
pd.read_csvимеет множество параметров, которые позволяют пользователям настраивать поведение функции.
filepath_or_buffer
: путь или буфер к файлу CSV для чтения.sep
: разделитель, используемый в файле CSV.header
: номера строк, которые будут использоваться в качестве имен столбцов для DataFrame.index_col
: столбцы, которые будут использоваться в качестве индекса DataFrame.usecols
: Столбцы, которые нужно выбрать из CSV-файла.dtype
: Типы данных для столбцов в DataFrame.
pd.read_excelтакже имеет множество параметров, которые позволяют пользователям настраивать поведение функции, в том числе:
io
: Путь или буфер к файлу Excel для чтения.sheet_name
: имя или индекс листов, которые нужно прочитать из файла Excel.header
: номера строк, которые будут использоваться в качестве имен столбцов для DataFrame.index_col
: столбцы, которые будут использоваться в качестве индекса DataFrame.usecols
: Столбцы, которые нужно выбрать из файла Excel.dtype
: Типы данных для столбцов в DataFrame.
Обе являются мощными функциями, используемыми для простой загрузки данных из внешнего источника в DataFrame. Затем DataFrame можно будет манипулировать и анализировать с помощью других функций Pandas. Эти функции являются важными инструментами для аналитиков данных и ученых, работающих с табличными данными.
Также часто используется функция .head() или .tail() после read_csv или read_excel, чтобы просмотреть фрейм данных. По умолчанию отображаются первые или последние 5 строк DataFrame.
2. df.столбцы:
При наличии большого набора данных будет сложно отслеживать столбцы. Использование атрибута df.columns возвращает имя/метку столбца.
- Тип данных: функция
df.columns
возвращает индексный объект, который представляет собой структуру данных pandas, похожую на список или словарь. - Использование: Эту функцию можно вызвать для объекта DataFrame pandas, чтобы получить список всех меток столбцов. Например, если у вас есть DataFrame с именем
df
, вы можете вызватьdf.columns
, чтобы получить список всех меток столбцов вdf
. - Имя: индексный объект, возвращаемый
df.columns
, не имеет имени. Однако вы можете присвоить имя индексному объекту, установив атрибутname
индексного объекта. Например, вы можете установитьdf.columns.name = "Column Labels"
, чтобы присвоить объекту индекса имя «Метки столбцов». - Изменяемый: индексный объект
df.columns
является изменяемым, что означает, что вы можете изменить метки столбцов DataFrame, назначив новый список меток индексному объектуdf.columns
. Например, вы можете установитьdf.columns = ["new_label_1", "new_label_2", "new_label_3"]
, чтобы изменить метки столбцов DataFrame на новые метки, представленные в списке. - Индексирование: индексный объект
df.columns
поддерживает индексирование и нарезку. Например, вы можете получить метку первого столбца в DataFrame, вызвавdf.columns[0]
. - Длина: объект индекса
df.columns
имеет длину, соответствующую количеству столбцов в DataFrame. Вы можете получить длину индексного объекта, вызвавlen(df.columns)
. - Свойства: Объект индекса
df.columns
имеет несколько свойств, которые предоставляют информацию об индексе, напримерdf.columns.dtype
для получения типа данных меток индекса,df.columns.is_unique
для проверки уникальности всех меток индекса иdf.columns.nlevels
для получения количества уровней в индексе. многоуровневый индекс.
В целом, функция df.columns
— это полезный инструмент для получения информации о метках столбцов DataFrame pandas и для изменения меток столбцов при необходимости.
Атрибут df.columns
можно использовать для выполнения многих задач, например:
- Переименование столбцов. Пользователи могут назначить новый список меток столбцов для
df.columns
и переименовать столбцы в DataFrame. - Фильтрация столбцов. Пользователи могут выбрать подмножество столбцов из DataFrame, проиндексировав
df.zecolumns
. - Доступ к именам столбцов. Пользователи могут получить метки столбцов в виде списка, вызвав метод
tolist()
для объекта индекса Pandas, возвращаемогоdf. columns
. - Проверка имен столбцов. Пользователи могут проверить, присутствует ли определенное имя столбца в DataFrame, с помощью оператора
in
вdf.columns
.
3. Форма, размер и информация:
Самая важная часть после чтения данных — это знать количество строк и столбцов, а также тип данных переменных.
df.shape выдает общее количество строк, а затем столбцов в формате кортежа. В основном он используется для понимания размера DataFrame и для выполнения операций, которые зависят от размера DataFrame, таких как изменение формы, слияние или конкатенация нескольких DataFrame.
- Функция
shape
является свойством, доступным только для чтения. Это означает, что вы не можете изменить форму DataFrame или Series напрямую с помощью этого метода. - Функция
shape
полезна для определения размера DataFrame или Series, что может быть полезно при работе с большими наборами данных. - Функцию
shape
можно использовать для выбора подмножества строк или столбцов из DataFrame на основе их положения. - Функцию
shape
можно использовать для изменения формы DataFrame или Series путем изменения количества строк или столбцов. - Функцию
shape
можно использовать для сравнения размеров двух или более DataFrames или Series, чтобы проверить, совместимы ли они с определенными операциями.
В заключение отметим, что функция shape
в Pandas — полезный инструмент для получения размеров DataFrame или Series, а также для работы с большими наборами данных.
df.size() возвращает общее количество элементов в DataFrame, которое равно произведению количества строк и количества столбцов. Он используется для понимания использования памяти и выполнения таких операций, как вычисление сводной статистики.
- Он возвращает одно целое значение, представляющее общее количество элементов в DataFrame или Series.
- Функция
size
является свойством, доступным только для чтения. Это означает, что вы не можете изменить размер DataFrame или Series напрямую с помощью этого метода. - Функция
size
полезна для определения общего количества элементов в DataFrame или Series, что может быть полезно при работе с большими наборами данных. - Функция
size
отличается от функцииshape
, поскольку она возвращает общее количество элементов в DataFrame или Series, а функцияshape
возвращает кортеж с количеством строк и столбцов. - Функцию
size
можно использовать для выбора подмножества элементов из DataFrame или Series на основе их положения. - Функцию
size
можно использовать для изменения формы DataFrame или Series путем изменения общего количества элементов. - Функцию
size
можно использовать для сравнения общего количества элементов в двух или более DataFrames или Series, чтобы проверить, совместимы ли они с определенными операциями.
В заключение отметим, что функция size
в Pandas — полезный инструмент для получения общего количества элементов в DataFrame или Series, а также для работы с большими наборами данных.
df.info() возвращает такую информацию, как строки из RangeIndex, столбцы данных, а затем тип данных каждого столбца. Он также включает информацию о ненулевых значениях. полезно для понимания типов данных и пропущенных значений в DataFrame, а также для выявления потенциальных проблем с памятью.
- Функция
info
полезна для быстрой проверки данных, содержащихся в DataFrame или Series, а также для выявления потенциальных проблем с качеством данных, таких как пропущенные значения или неправильные типы данных. - Функция
info
— это метод, доступный только для чтения. Это означает, что вы не можете изменять данные, содержащиеся в DataFrame или Series, напрямую с помощью этого метода. - Функцию
info
можно использовать для выбора подмножества столбцов из DataFrame на основе их типа данных. - Функцию
info
можно использовать для преобразования типа данных столбца в DataFrame. - Функцию
info
можно использовать для выявления потенциальных проблем с использованием памяти в DataFrame, а также для оптимизации использования памяти путем преобразования типов данных или удаления ненужных столбцов. - Функцию
info
можно использовать для сравнения типов данных и использования памяти двух или более DataFrames, чтобы проверить, совместимы ли они с определенными операциями.
В заключение отметим, что функция info
в Pandas — это полезный инструмент для быстрого обобщения данных, содержащихся в DataFrame или Series, а также для выявления потенциальных проблем с качеством данных и использованием памяти.
4. df.loc() и df.iloc():
df.iloc() используется для выбора строк и столбцов по целочисленной позиции. Он принимает в качестве параметра индексы строк и столбцов и соответственно дает вам подмножество DataFrame.
- Синтаксис использования функции
iloc
—df.iloc[row_indexer, column_indexer]
. row_indexer
иcolumn_indexer
могут быть целым числом, списком целых чисел или объектом среза. Оператор:
используется для выбора диапазона строк или столбцов.- Функция
iloc
используется, когда вы хотите выбрать данные на основе их положения, а не метки. - Функция
iloc
отсчитывается от нуля, что означает, что индекс первой строки или столбца равен 0. - Функцию
iloc
можно использовать для изменения подмножества строк или столбцов в DataFrame. - Функция
iloc
возвращает DataFrame или Series, в зависимости от количества выбранных строк и столбцов. - Функцию
iloc
можно использовать в сочетании с другими функциями Pandas, такими какloc
,ix
,at
иiat
, для более продвинутой индексации. - Функция
iloc
— очень мощный инструмент для выбора, разрезания и изменения данных в DataFrame.
В заключение отметим, что функция iloc
в Pandas — это мощный метод выбора, разрезания и изменения данных в DataFrame на основе их целочисленной позиции. Это важный инструмент для работы с большими наборами данных в Pandas.
df.loc(),которыйиспользуется для выбора строк и столбцов по метке. Почти аналогичная операция, как функция .iloc(). Но здесь мы можем точно указать, какой индекс строки нам нужен, а также имена столбцов, которые мы хотим видеть в нашем подмножестве.
- Функция
loc
позволяет выбирать строки и столбцы по метке или логическому индексированию. - Синтаксис — df.loc[row_labels, columns_labels], где
row_labels
иcolumn_labels
— это метки строк и столбцов, которые вы хотите выбрать. - Функцию
loc
можно использовать с одной меткой, списком меток или фрагментом меток. - Функция
loc
включает в себя как начальную, так и конечную точки при использовании среза. - Функция
loc
также может принимать логические массивы, используемые для фильтрации строк или столбцов. - Функция
loc
возвращает новый DataFrame или Series, содержащий выбранные строки и столбцы. - Функция
loc
обычно используется для индексации на основе меток в Pandas. - Функция
loc
также используется для присвоения значений определенным строкам и столбцам в DataFrame.
В заключение отметим, что функция loc
в Pandas — полезный инструмент для выбора и доступа к данным из DataFrame на основе его меток. Его можно использовать с различными метками и логическим индексированием для фильтрации и управления данными.
4. группировка():
groupby() используется для группировки DataFrame Pandas по одному или нескольким столбцам и выполнения над ним некоторой математической операции. Этот метод особенно полезен для анализа данных и задач науки о данных, где нам часто необходимо суммировать или агрегировать данные на основе определенных критериев.
- Сгруппируйте DataFrame по одному или нескольким столбцам, используя метод
groupby
. Это создаст объектDataFrameGroupBy
. - Примените сводную функцию (например,
mean
,sum
,count
,max
илиmin
) к сгруппированным данным, используя методagg
объектаDataFrameGroupBy
. - При необходимости примените дополнительные преобразования или фильтры к сгруппированным данным.
- Функция
groupby
также очень гибкая и позволяет выполнять более сложные операции, такие как:
- Группировка по функции или лямбда-выражению
- Применение нескольких суммарных функций одновременно
- Указание разных итоговых функций для разных столбцов
- Фильтрация групп по условию
- Перебор групп и выполнение пользовательских операций.
Библиотека Pandas обширна и содержит множество функций. Однако знание некоторых важных функций необходимо для успешного выполнения большинства задач анализа данных.
Эти функции обычно используются на начальных этапах предварительной обработки данных, и их рекомендуется запомнить.
Хотя в Pandas есть много других полезных функций, их можно изучить с учетом конкретных условий и требований.
Для дальнейшего изучения можно обратиться к документации Pandas, доступной по адресу https://pandas.pydata.org/pandas-docs/stable/reference/frame.html.
Надеюсь, статья была полезна.
Картик Сараванан
www.linkedin.com/in/karthik-sa
Прощайте!