ВВЕДЕНИЕ:
— — — — — — — — —
Прогноз фондового рынка помогает определить будущую стоимость акций компании. Успешный прогноз будущей цены акции может принести значительную прибыль. Фондовый рынок управляется несколькими факторами, а именно техническим анализом и финансовыми результатами, и одним из них являются новостные статьи. Любые новости, связанные с определенной акцией, независимо от того, хорошие они или плохие, напрямую влияют на ту же акцию существенным образом. Так, анализ настроений использовался для прогнозирования цены акций на основе настроений участников рынка [1]. Анализ настроений стал популярным в области НЛП, но при работе с классификацией анализа настроений возникло несколько проблем, таких как двусмысленность слов и сарказм.

ОБЗОР:
— — — — — — — — —
Прогнозирование фондового рынка заключается не в получении результатов, а в уменьшении неточного прогноза цен на акции. Аггарвал и др. [1] использовали анализ настроений для прогнозирования цены акций с использованием различных методов моделирования и сравнивали производительность модели на основе точности. Данные были собраны с помощью метода парсинга веб-сайта moneycontrol.com. Как наука о данных, жизненный цикл включает в себя несколько этапов, поэтому сначала данные были очищены и предварительно обработаны с использованием нескольких методов, а именно стемминга, токенизации с использованием NLTK, а затем метка (зависимая функция) была рассчитана с использованием скользящего среднего. Модели обучались с использованием нескольких методов машинного обучения (кластеризация K-средних, наивный байесовский подход и SVM). Во-первых, кластеризация K-средних — это метод обучения без учителя, основная цель которого — сгруппировать похожие точки данных в кластер. Автор упомянул, что вторым алгоритмом машинного обучения был наивный байесовский алгоритм обучения с учителем, используемый для классификации. Он основан на теореме Байеса, которая дает условную вероятность события A при заданном B. Третьим алгоритмом, использованным в исследовании, была машина опорных векторов, которая также является алгоритмом машинного обучения с учителем. SVM — это граница, которая лучше всего разделяет два класса (гиперплоскость), что означает, что важны только опорные векторы (точки данных), тогда как другие обучающие примеры можно игнорировать. После предварительной обработки данных модели были обучены на заголовках новостей Mahindra & Mahindra Ltd, которая относится к автомобильному сектору, Kotak Mahindra Bank Ltd, которая относится к банковскому сектору за период с 2009 по 2019 год [1]. Общее количество протестированных заголовков составило 536 и 251 для Mahindra & Mahindra Ltd и Kotak Mahindra Bank Ltd соответственно. Точность, достигнутая как для SVM, так и для наивного байесовского метода, была почти одинаковой, поскольку наивный байесовский метод имеет небольшое преимущество перед SVM: 82,87% для Kotak Mahindra Bank и 66,42% для Kotak Mahindra Bank Ltd. алгоритм обучения, поэтому, если заголовки были положительными, цена акций снизилась по какой-то другой причине. Поэтому у него не было никаких средств для изучения сложных взаимосвязей.

КРИТИКА:
— — — — — — — — —
Исследование показывает важность новостных статей для предсказания фондового рынка. Поскольку технический анализ важен для прогнозирования цен на фондовом рынке, но за годы исследований значительную роль сыграли новостные статьи. Данные собирались в течение 10 лет, что было важно, поскольку чем больше данных было передано в модель машинного обучения, тем лучше прогнозировалось количество акций. Большой объем данных помогает анализировать и классифицировать данные, а также имеет дополнительные функции, которые в конечном итоге повышают производительность модели. Автор серьезно упустил из виду методы предварительной обработки данных, поскольку это было важно перед обучением модели. Одним из важных методов предварительной обработки, которым часто пренебрегали, была нормализация текста. Это важно для зашумленных текстов, таких как слова из словарного запаса, орфографические ошибки, поскольку переводит текст в каноническую форму. Таким образом, это может помочь модели повысить эффективность и точность за счет уменьшения количества отдельных токенов. Кроме того, если модель была загружена текстами, скажем, только для автомобильного и банковского секторов, у нее могут возникнуть проблемы с анализом текстов из других секторов. Данные, полученные из одного поля, могут иметь необъективный результат для всех компаний в этом поле. Предвзятость данных будет одной из проблем анализа настроений. Более того, данные растут быстрыми темпами и с годами развиваются в онлайн-СМИ. Таким образом, критически важным аспектом сбора данных является сбор данных из различных секторов, таких как технологии, здравоохранение, розничная торговля и т. д. Всегда есть возможность создать индивидуальный набор данных, собирая данные из этих сред, добавляя новое измерение в анализ настроений.

ЗАКЛЮЧЕНИЕ:
— — — — — — — — —
В эпоху цифрового мира увеличивается количество неразмеченных данных, поэтому использование неразмеченных данных и создание прогнозов на основе данных важно для организации. Таким образом, для повышения точности предсказания модели будут учтены вышеперечисленные недостатки. Поэтому при создании индивидуального набора данных данные берутся с разных платформ и из разных секторов, чтобы активность миллиардов людей была доступна в то время, что снижает погрешности в наборе данных. Анализ настроений для прогнозирования запасов был важным вариантом использования, поскольку он был широким и мощным, но важно уменьшить случайность в предварительной обработке текстовых данных, поскольку это уменьшает количество различной информации и повышает эффективность.

ССЫЛКИ:
— — — — — — — — —
[1] Харшит Аггарвал и Врай Джадхав «Сентиментальный анализ заголовков новостей для фондового рынка» 2021
IEEE.