Обработка данных JSON с помощью JSON и Pandas в Python

Введение в десериализацию и сериализацию данных JSON в Python.

Вступление

JSON - очень популярный стандартизированный формат данных, который обычно используется для передачи данных. Это сокращение от J ava S cript O bject N otation - облегченного формата обмена данными, который состоит из пар ключ-значение.

Учитывая замечательную читаемость JSON и его объектную структуру, он широко используется в веб-разработке и других настройках разработки программного обеспечения. Таким образом, было бы полезно знать, как данные JSON работают в Python. Эта статья покажет вам некоторые основные функции того, как мы можем читать и записывать данные JSON в Python.

Структура данных JSON

Давайте посмотрим, как выглядит объект JSON. Как показано ниже, объект JSON окружен парой фигурных скобок {}. Мы используем строки в качестве ключей, а значения могут быть строками и числами, а также другими допустимыми типами данных JSON. Каждая пара "ключ-значение" связывается с помощью двоеточия, а пары "ключ-значение" разделяются запятыми.

Когда данные JSON передаются, они представлены в виде текстов или строк. Но на самом деле, когда мы готовим объект JSON, есть пять допустимых типов данных: String, Number, Boolean, Array и Object. Кроме того, существует специальный тип Null, который мы используем для обозначения пустых значений для других типов данных.

Преобразование типов данных

Мы можем обрабатывать данные JSON в Python, используя его собственные типы данных, а именно dict, list, tuple, string, int, float, bool и NoneType. Как мы можем преобразовать данные JSON в данные Python и из них? Давайте посмотрим на таблицу преобразования ниже.

JSON и панды

Модуль json - это встроенный модуль Python, который предназначен для обработки данных JSON, предоставляя различные методы для чтения и записи данных JSON.

Модуль pandas - очень популярная библиотека Python, которая предоставляет все важные функции, необходимые для обработки и анализа данных, особенно для структурированных данных, в основном табличных данных. Как указывалось выше, данные JSON также являются структурированными данными за счет организации данных с использованием пар "ключ-значение", поэтому неудивительно, что библиотека pandas имеет удобные инструменты для обработки данных JSON.

Чтение данных JSON

Процесс чтения и декодирования данных объекта JSON (т. Е. Строк) известен как десериализация. Давайте посмотрим, как можно выполнить десериализацию с помощью json и pandas в Python.

В демонстрационных целях предположим, что у нас есть файл с именем students.json, в котором есть следующие данные, в которых каждый ключ связан со значением объекта.

Следующий код показывает, как мы можем прочитать этот файл, используя json и pandas соответственно.

Следующие данные будут напечатаны для переменных students0 и students1 соответственно. Если вы проверите их типы с помощью функции type(), вы обнаружите, что students0 - это dict, а students1 - это pandasDataFrame.

Записать данные JSON

Процесс записи данных объекта JSON (т. Е. Строк) известен как сериализация. Давайте посмотрим, как можно выполнить сериализацию с помощью json и pandas в Python.

Как и следовало ожидать, будут созданы два файла с именами teacher.json и activities.json. Если вы откроете файлы, они будут в ожидаемом формате данных JSON с парами "ключ-значение". Ниже показано, как они выглядят.

Выводы

Эта статья представляет собой краткое введение в десериализацию и сериализацию данных JSON в Python с использованием двух популярных модулей - JSON и pandas. Конечно, каждый из этих модулей имеет больше функций, и каждый из них имеет больше аргументов, которые мы можем установить для обработки данных JSON различных структур. Пожалуйста, обратитесь к следующим ссылкам для получения дополнительной информации.

использованная литература

Модуль Python json

Десериализация данных JSON с помощью панд

Сериализация данных JSON с использованием панд