Использование обработки естественного языка для оценки настроения финала Игры престолов

Использование Vader и TextBlob для анализа настроения твитов и обзоров основных изданий

Как начинающий специалист по данным, я посещаю учебный курс Flatiron School, который познакомил нас с обработкой естественного языка. После изучения лексем, основ, лемм и корпусов мое внимание привлекла одна вещь - сентиментальный анализ. Анализ настроений, также известный как анализ мнений, - это автоматизированный процесс идентификации и категоризации фрагмента текста для определения того, является ли выраженное отношение положительным, отрицательным или нейтральным.

Вот пример использования анализа настроений. На туристическом веб-сайте была размещена коммерческая реклама своего продукта. После многократных показов потребители сочли рекламу крайне раздражающей и высказали свое мнение в социальных сетях. Через несколько недель более половины упоминаний в социальных сетях были отрицательными. Компания осознала это и, чтобы исправить ситуацию, выпустила новую версию рекламы, в которой был разбит раздражающий предмет, в данном случае скрипка.

После того, как я узнал об анализе настроений, моя первая мысль о его использовании не имела ничего общего с туристическими веб-сайтами, а была связана с огромной мощью популярного шоу, которое, как оказалось, только что вышло в эфир своего последнего эпизода. Я, конечно, говорю об Игре престолов. В усеченном финальном сезоне всего шесть эпизодов и, по-видимому, также есть усеченная форма повествования. В Интернете, однако, не было недостатка в том, чтобы поделиться своим мнением о сериале. Жалобы на плохой темп, персонажи, принимающие нехарактерно плохие решения, и серая мораль, превращающаяся в черно-белую, были одними из самых громких жалоб. Существует даже петиция на сайте change.org о переделке всего сезона с участием компетентных сценаристов, которую подписали более 1,4 миллиона человек.

Используя анализ настроений, я поинтересовался, как будет выглядеть финальный эпизод.

Мне нужны были немедленные мысли и реакции людей.

Я поискал в твиттере твиты, сделанные в течение двадцати четырех часов после выхода в эфир заключительного эпизода, который содержал #GameofThrones или #GameofThronesFinale.

Чтобы проанализировать настроение этих твитов, я использовал VADER и TextBlob. VADER (Valence Aware Dictionary и sEntiment Reasoner) - это инструмент анализа настроений на основе лексики и правил, специально адаптированный к настроениям, выраженным в социальных сетях . Он измеряет настроение через положительную или отрицательную полярность и интенсивность (составную). TextBlob - это библиотека Python для обработки текстовых данных, которая измеряет настроение через полярность в диапазоне от -1,0 до 1,0, где 1 означает положительное утверждение, а -1 означает отрицательное утверждение. Другой показатель, который использует TextBlob, - это субъективность, которая варьируется от 0 до 1.0, где 0 - очень объективный, а 1.0 - очень субъективный.

Отрицательная полярность

Вот пример твита, который получил высокий балл в отрицательной полярности с баллом 0,980 и очень высокий составной балл -0,998, что означает, что он имеет очень отрицательную интенсивность.

Следующий твит имеет высокую отрицательную полярность 0,65 и оценку интенсивности -0,7003.

Следующий твит имел сильную отрицательную полярность, но, на мой взгляд, это положительное, даже вдохновляющее заявление. С помощью всего четырех слов и без дополнительного контекста НЛП придает ему отрицательную полярность, которая может неточно передавать настрой твита.

Положительная полярность

Следующий твит имеет положительную полярность 0,552, и TextBloB обнаружил, что он имеет полярность 1, поэтому он был настолько положительным по настроениям, насколько мог. Исходя из контекста простого текста, я не смог бы различить, искреннее это утверждение или сарказм. Мое предположение по умолчанию, как и VADER, заключается в том, что это положительное утверждение. Если бы это было сказано, можно было бы прислушиваться к другим контекстным подсказкам, таким как интонация и ударение слов. В этом примере истинное отношение можно интерпретировать только после анализа изображения, прикрепленного к твиту. Это сарказм, он выставляет положительное утверждение за отрицательное.

Следующий твит имеет положительную полярность 0,587 и полярность TextBlob 0,6. Сама по себе фраза «Я люблю тебя» возвращает положительную полярность 0,808.

Следующий твит имеет положительную полярность 0,552 и полярность TextBlob 1.

Нейтральная полярность

Следующий твит также был признан VADER нейтральным, но TextBlob обнаружил, что он имел отрицательную полярность -0,4. Интересно, это сочетание «Игры престолов 8 сезон» придает ему отрицательную полярность.

Еще один твит нейтральной полярности:

Так каков был общий настрой этого эпизода?

После более чем 1800 твитов VADER и TextBlob вернули следующие результаты:

Результаты были довольно неожиданными. Я ожидал гораздо более сильного негативного отношения к финальному эпизоду, вместо этого среднее настроение было более позитивным, чем негативным.

Слушал ли я очень громкое и страстное меньшинство? Был ли эпизод не таким уж плохим, или здесь сыграли роль другие факторы?

Ограничения обработки естественного языка твитов.

Проблема с использованием только НЛП для определения настроений заключается в том, насколько велик Twitter.

Полный контекст или тональность твита нельзя определить только по тексту.

Мне нужно было бы добавить оптическое распознавание символов и распознавание изображений, чтобы определить более точное настроение. Жесткое ограничение в 280 символов также может быть очень легким в понимании контекста. Такие стили речи, как сарказм, очень трудно оценить с помощью одного текста. Сарказм связан с контекстом и тоном голоса, поэтому он лучше работает в устной форме.

Как финал понравился критикам?

Я хотел сравнить уровень тональности твитов и отзывов о финале в крупных изданиях. Этот метод не ограничивался 240 символами и не был настолько зависим от изображений или мемов, чтобы передать настроение. Мне было любопытно увидеть какие-нибудь различия. Какая была интенсивность? Есть ли стиль письма, который соотносится с классификацией «более профессионального»? Будет ли сложная оценка более нейтральной?

Например, твит с наивысшим составным баллом (интенсивностью) был наполнен бомбой F-бомбой тирадой о том, что Джон Сноу предает Дейнарис.

Я проанализировал полные обзоры Washington Post, New York Times и BBC. Я также проанализировал статьи Metacritic из NYT (смешанный обзор) и BBC (положительный отзыв с оценкой 80), чтобы увидеть, есть ли разница, и, возможно, получить некоторое представление о системе оценки Metacritic.

Я был очень удивлен (снова), увидев, что отзывы дали более положительные отзывы. Мое предположение о более нейтральной сложной оценке было совершенно неверным. Сложные баллы были более экстремальными с положительными настроениями. Было интересно увидеть, что обзор BBC с положительной метакритической оценкой 80 не имеет такого высокого положительного мнения, как смешанный метакритический обзор NYT.

Как бы я ни был недоволен прошлым сезоном (темп был ужасным, укороченная длина эпизода оказала медвежью услугу фанатам, смена персонажей без времени на маринование), в конечном итоге Игра престолов была захватывающей захватывающей поездкой с великолепной драмой, интересными сюжетами персонажей и красивый кинематограф (и драконы !!). Он держал меня на краю стула и в его рабстве, так как у них была настоящая наглость казнить Неда Старка. Я получил огромное удовольствие от путешествия, даже если конец не полностью раскрыл его потенциал.

«Pos»: 0,175, «neg»: 0,081, «neu»: 0,745, «соединение»: 0,8854, TBPolarity: 0,1111

Ресурсы:

Как очистить исторические данные Twitter с помощью Web Scraper и Chrome
Вот пошаговое видео по очистке исторических твитов… www.scrapehero.com

cjhutto / vaderSentiment
Анализ настроений VADER. VADER (Valence Aware Dictionary и sEntiment Reasoner) - это лексика и основанная на правилах сентиментальность… github.com

Почему писать в восьмом сезоне« Игры престолов неприятно
С каждым новым эпизодом Игры престолов жалобы на поспешность и непоследовательность в написании, кажется, усиливаются… www.wired.com »

TextBlob: Упрощенная обработка текста - Документация по TextBlob 0.15.2
from textblob import TextBlob text = '' 'Основная угроза The Blob всегда казалась мне окончательным фильмом ... textblob.readthedocs.i

Обзор эпизода: финал сериала« Игра престолов
Обновлено 21 мая. Спойлер. На этой странице могут содержаться описания событий в этом и предыдущих эпизодах. Смотрите… www.metacritic.com »

Использование обработки естественного языка для оценки настроения финала Игры престолов