Анализ настроений с использованием RNN (LSTM)

Здесь мы используем пример отзывов для прогнозирования настроений (хотя он может быть применен в более общем плане к другим доменам, например, анализ настроений для твитов, комментариев, отзывов клиентов и т. Д.). Вся идея здесь в том, что обзоры фильмов состоят из последовательности слов, а порядок слов кодирует много информации, которая полезна для прогнозирования настроения. Шаг 1 - сопоставить слова с вложениями слов (см. Сообщения 1 и 2 для получения дополнительной информации о встраиваниях слов). Шаг 2 - это RNN, которая принимает последовательность векторов в качестве входных данных и рассматривает порядок векторов для генерации прогноза.

Архитектура этой сети показана ниже.

Здесь мы перейдем к слою встраивания словами. Вы действительно можете обучить встраивание с помощью word2vec и использовать его здесь. Но достаточно иметь слой встраивания и позволить сети самостоятельно изучить таблицу встраивания.

Из уровня внедрения новые представления будут переданы в ячейки LSTM. Это добавит повторяющиеся подключения к сети, чтобы мы могли включать информацию о последовательности слов в данных. Наконец, здесь ячейки LSTM перейдут на сигмовидный выходной слой. Мы используем сигмовидную диаграмму, потому что пытаемся предсказать, имеет ли этот текст положительную или отрицательную окраску. Выходной слой будет просто единым блоком с функцией активации сигмовидной кишки.

Нас не интересуют сигмовидные выходы, кроме самого последнего, остальное мы можем игнорировать. Мы рассчитаем стоимость на основе результатов последнего шага и метки обучения.

Краткое описание архитектуры:

Закодируйте обзоры фиксированной длины как целые числа, а затем преобразуйте их во встраиваемые векторы, передаваемые на слои LSTM рекуррентно, и выберите последний прогноз в качестве вывода.

Попытки:

Одна вещь в своих экспериментах, которую я не мог объяснить, - это когда я кодирую слова в целые числа, если я случайным образом присваиваю уникальные целые числа словам, лучшая точность, которую я получаю, составляет 50–55% (в основном модель не намного лучше, чем случайное угадывание). Однако если слова закодированы так, что слова с самой высокой частотой получают наименьшее число, то точность модели составляет 80% за 3-5 эпох. Я предполагаю, что это необходимо для обучения слоя внедрения, но нигде не могу найти объяснения, почему.

Код:

Https://github.com/mchablani/deep-learning/blob/master/sentiment-rnn/Sentiment_RNN.ipynb

Предварительная обработка данных:

Возьмите все слова в обзорах и закодируйте их целыми числами. Теперь каждый отзыв представляет собой упорядоченный массив целых чисел. Сделайте каждый отзыв фиксированным размером (скажем, 200), чтобы более короткие обзоры заполнялись нулями впереди, а более длинные обзоры усекались до 200. Поскольку мы заполняем 0, сопоставление корпуса слов с int начинается с 1. Метки кодируются как 1. и нули для «положительного» и «отрицательного».

Построить график

lstm_size = 256
lstm_layers = 2
batch_size = 500
learning_rate = 0.001
embed_size = 300
n_words = len(vocab_to_int) + 1 # Add 1 for 0 added to vocab
# Create the graph object
tf.reset_default_graph()
with tf.name_scope('inputs'):
    inputs_ = tf.placeholder(tf.int32, [None, None], name="inputs")
    labels_ = tf.placeholder(tf.int32, [None, None], name="labels")
    keep_prob = tf.placeholder(tf.float32, name="keep_prob")
# Sizeof embedding vectors (number of units in the embedding layer)
with tf.name_scope("Embeddings"):
    embedding = tf.Variable(tf.random_uniform((n_words, embed_size), -1, 1))
    embed = tf.nn.embedding_lookup(embedding, inputs_)
def lstm_cell():
    # Your basic LSTM cell
    lstm = tf.contrib.rnn.BasicLSTMCell(lstm_size, reuse=tf.get_variable_scope().reuse)
    # Add dropout to the cell
    return tf.contrib.rnn.DropoutWrapper(lstm, output_keep_prob=keep_prob)
with tf.name_scope("RNN_layers"):
    # Stack up multiple LSTM layers, for deep learning
    cell = tf.contrib.rnn.MultiRNNCell([lstm_cell() for _ in range(lstm_layers)])
    
    # Getting an initial state of all zeros
    initial_state = cell.zero_state(batch_size, tf.float32)
with tf.name_scope("RNN_forward"):
    outputs, final_state = tf.nn.dynamic_rnn(cell, embed, initial_state=initial_state)
with tf.name_scope('predictions'):
    predictions = tf.contrib.layers.fully_connected(outputs[:, -1], 1, activation_fn=tf.sigmoid)
    tf.summary.histogram('predictions', predictions)
with tf.name_scope('cost'):
    cost = tf.losses.mean_squared_error(labels_, predictions)
    tf.summary.scalar('cost', cost)
with tf.name_scope('train'):
    optimizer = tf.train.AdamOptimizer(learning_rate).minimize(cost)

Пакетирование и обучение

def get_batches(x, y, batch_size=100):
    
    n_batches = len(x)//batch_size
    x, y = x[:n_batches*batch_size], y[:n_batches*batch_size]
    for ii in range(0, len(x), batch_size):
        yield x[ii:ii+batch_size], y[ii:ii+batch_size]
epochs = 10
# with graph.as_default():
saver = tf.train.Saver()
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    train_writer = tf.summary.FileWriter('./logs/tb/train', sess.graph)
    test_writer = tf.summary.FileWriter('./logs/tb/test', sess.graph)
    iteration = 1
    for e in range(epochs):
        state = sess.run(initial_state)
        
        for ii, (x, y) in enumerate(get_batches(train_x, train_y, batch_size), 1):
            feed = {inputs_: x,
                    labels_: y[:, None],
                    keep_prob: 0.5,
                    initial_state: state}
            summary, loss, state, _ = sess.run([merged, cost, final_state, optimizer], feed_dict=feed)
#             loss, state, _ = sess.run([cost, final_state, optimizer], feed_dict=feed)
train_writer.add_summary(summary, iteration)
        
            if iteration%5==0:
                print("Epoch: {}/{}".format(e, epochs),
                      "Iteration: {}".format(iteration),
                      "Train loss: {:.3f}".format(loss))
if iteration%25==0:
                val_acc = []
                val_state = sess.run(cell.zero_state(batch_size, tf.float32))
                for x, y in get_batches(val_x, val_y, batch_size):
                    feed = {inputs_: x,
                            labels_: y[:, None],
                            keep_prob: 1,
                            initial_state: val_state}
#                     batch_acc, val_state = sess.run([accuracy, final_state], feed_dict=feed)
                    summary, batch_acc, val_state = sess.run([merged, accuracy, final_state], feed_dict=feed)
                    val_acc.append(batch_acc)
                print("Val acc: {:.3f}".format(np.mean(val_acc)))
            iteration +=1
            test_writer.add_summary(summary, iteration)
            saver.save(sess, "checkpoints/sentiment_manish.ckpt")
    saver.save(sess, "checkpoints/sentiment_manish.ckpt")

Источники: Из конспектов лекции: https://classroom.udacity.com/nanodegrees/nd101/syllabus