Обработка данных JSON с помощью JSON и Pandas в Python
Введение в десериализацию и сериализацию данных JSON в Python.
Вступление
JSON - очень популярный стандартизированный формат данных, который обычно используется для передачи данных. Это сокращение от J ava S cript O bject N otation - облегченного формата обмена данными, который состоит из пар ключ-значение.
Учитывая замечательную читаемость JSON и его объектную структуру, он широко используется в веб-разработке и других настройках разработки программного обеспечения. Таким образом, было бы полезно знать, как данные JSON работают в Python. Эта статья покажет вам некоторые основные функции того, как мы можем читать и записывать данные JSON в Python.
Структура данных JSON
Давайте посмотрим, как выглядит объект JSON. Как показано ниже, объект JSON окружен парой фигурных скобок {}. Мы используем строки в качестве ключей, а значения могут быть строками и числами, а также другими допустимыми типами данных JSON. Каждая пара "ключ-значение" связывается с помощью двоеточия, а пары "ключ-значение" разделяются запятыми.
Когда данные JSON передаются, они представлены в виде текстов или строк. Но на самом деле, когда мы готовим объект JSON, есть пять допустимых типов данных: String
, Number
, Boolean
, Array
и Object
. Кроме того, существует специальный тип Null
, который мы используем для обозначения пустых значений для других типов данных.
Преобразование типов данных
Мы можем обрабатывать данные JSON в Python, используя его собственные типы данных, а именно dict
, list
, tuple
, string
, int
, float
, bool
и NoneType
. Как мы можем преобразовать данные JSON в данные Python и из них? Давайте посмотрим на таблицу преобразования ниже.
JSON и панды
Модуль json
- это встроенный модуль Python, который предназначен для обработки данных JSON, предоставляя различные методы для чтения и записи данных JSON.
Модуль pandas
- очень популярная библиотека Python, которая предоставляет все важные функции, необходимые для обработки и анализа данных, особенно для структурированных данных, в основном табличных данных. Как указывалось выше, данные JSON также являются структурированными данными за счет организации данных с использованием пар "ключ-значение", поэтому неудивительно, что библиотека pandas
имеет удобные инструменты для обработки данных JSON.
Чтение данных JSON
Процесс чтения и декодирования данных объекта JSON (т. Е. Строк) известен как десериализация. Давайте посмотрим, как можно выполнить десериализацию с помощью json
и pandas
в Python.
В демонстрационных целях предположим, что у нас есть файл с именем students.json
, в котором есть следующие данные, в которых каждый ключ связан со значением объекта.
Следующий код показывает, как мы можем прочитать этот файл, используя json
и pandas
соответственно.
Следующие данные будут напечатаны для переменных students0
и students1
соответственно. Если вы проверите их типы с помощью функции type()
, вы обнаружите, что students0
- это dict
, а students1
- это pandas
’DataFrame
.
Записать данные JSON
Процесс записи данных объекта JSON (т. Е. Строк) известен как сериализация. Давайте посмотрим, как можно выполнить сериализацию с помощью json
и pandas
в Python.
Как и следовало ожидать, будут созданы два файла с именами teacher.json
и activities.json
. Если вы откроете файлы, они будут в ожидаемом формате данных JSON с парами "ключ-значение". Ниже показано, как они выглядят.
Выводы
Эта статья представляет собой краткое введение в десериализацию и сериализацию данных JSON в Python с использованием двух популярных модулей - JSON и pandas. Конечно, каждый из этих модулей имеет больше функций, и каждый из них имеет больше аргументов, которые мы можем установить для обработки данных JSON различных структур. Пожалуйста, обратитесь к следующим ссылкам для получения дополнительной информации.