Попробуйте другую кодировку для успешного чтения текстовых файлов с помощью Python

Для некоторых моих выступлений мне приходится обрабатывать много текстовых файлов. Я заметил, что текстовые файлы иногда имеют разную кодировку. Я не уверен, почему. Обычно текстовые файлы соответствуют формату utf-8. Однако иногда присутствует Windows-1252.

Как вы понимаете, чтение не работает, если вы укажете неправильную кодировку — вы получите сообщение об ошибке. Конечно, есть и другие виды кодирования текстовых файлов, но я с ними пока не сталкивался.

Итак, я разработал этот простой скрипт для непрерывной обработки этих двух типов.

Основы, сценарий сначала пытается обработать файлы в кодировке Windows-1252. Если это не удается, возникает исключение, которое добавляет его в список, utf8s. Затем он переходит к следующему файлу в списке и обрабатывает его, если файлы имеют тип Windows-1252, или добавляет его в список utf8s, если нет.

После того, как все файлы обработаны в первой части, затем обрабатываются utf8s. Таким образом, я обрабатываю все файлы. Пока что все, что мне нужно, это использование этих двух типов кодирования.

Затем я просто помещаю данные в dataFrame.

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord.