Анализ настроений с использованием модели контролируемого глубокого обучения

Что оно делает

Сентиментальный анализ - это программа, которая интерпретирует предложение, данное пользователем, и сообщает нам, является ли это предложение положительным или отрицательным предложением. Чтобы интерпретировать это предложение, он использует предварительную обработку для устранения несоответствий. Затем модель машинного обучения обучается на предоставленном наборе данных и предсказывает наиболее вероятный результат.

Как это построить

Предварительная обработка Перед применением алгоритмов машинного обучения к данным нам необходимо убедиться, что данные не содержат двусмысленности и шумов. Например: «Привет, Адам !! Тебе сегодня хорошо ?? В этом предложении пунктуация нравится! а также? Не сообщает нам о настроениях предложения, но создает двусмысленность в нашей программе, поэтому их необходимо удалить. Другая категория слов - это стоп-слова, такие как «сказать», «я» и т. Д., Которые не играют никакой роли в определении настроений, поэтому они удаляются. Предварительная обработка важна, поскольку она помогает уменьшить количество ненужных данных и очистить наши данные, чтобы уменьшить несогласованность. Чтобы преобразовать все строки в обработанную форму, я использовал функцию, которая использовала bs4 для удаления тегов HTML и сокращений, чтобы заменить сжатие в тексте строки.
Создание токенизатора и встраивание слоев. После предварительной обработки данных мы токенизировали данные с помощью встроенной в Keras функции, называемой токенизаторами. Слова называются токенами, а процесс разделения текста на токены называется токенизацией. Эти токены помогают понять контекст или разработать модель НЛП. Токенизация помогает интерпретировать значение текста, анализируя последовательность слов. Например, текст «Идет дождь» можно обозначить как «Это», «идет», «дождь».
Встраивание данных. Единственная цель встраивания данных - преобразовать данные низкой размерности (наши исходные данные) в данные высокой размерности. Наши модели машинного обучения более эффективны, когда мы используем векторы большой размерности.

4. Создание нейронной сети с использованием Keras. Теперь нам нужно построить нейронную сеть, которая будет обрабатывать все данные, которые мы должны собирать, и прогнозировать результат. LSTM использовался для построения модели. LSTM - это особый вид RNN, способный изучать долгосрочные зависимости.

Что дальше для анализа настроений с использованием модели контролируемого глубокого обучения

Изучите новые модели, такие как методы наложения ансамблей, для повышения точности. В настоящее время в модели используются нейронные сети, варианты NN, такие как CNN1D BLSTM, и другие временные ряды, модели NLP, например, скрытые модели Маркова, для лучшего прогнозирования. Кодировщики предложений TF и glove. 6B были немного медленными для 600000 кортежей, поэтому я хочу попробовать их в распределенных вычислениях, таких как Hadoop, для более быстрой предварительной обработки.