В мире финансовых рынков информация – это сила. Трейдеры и инвесторы во многом полагаются на новости для принятия обоснованных решений, а настроение новостей может сыграть решающую роль в формировании рыночных тенденций. В этом проекте мы погружаемся в сферу фундаментальных новостей Форекс и используем машинное обучение и анализ временных рядов, чтобы предсказать, будут ли настроения новостей положительными или отрицательными.

Обзор проекта

Наш проект основан на комплексном наборе данных, полученном от Kaggle, в частности на наборе данных «Фундаментальные новости Форекс для долларов США». Этот набор данных предлагает обширную информацию за многие годы, включая такие важные показатели, как индекс PMI в обрабатывающей промышленности и сфере услуг ISM, строительство жилья, изменение занятости в несельскохозяйственном секторе, уровень безработицы, индекс потребительских цен (ИПЦ), индекс цен производителей (ИЦП) и розничные продажи. . Эти индикаторы дают многогранное представление об экономической ситуации, что делает их идеальными кандидатами для анализа настроений.

Исследование данных и разработка функций

Прежде чем углубиться в тонкости моделирования, мы приступили к исследовательскому анализу данных (EDA). Каждый столбец символизирует важнейший экономический показатель, а наши визуализации освещают тенденции с 2010 по 2023 год. Примечательно, что в этот период на рынке наблюдались преимущественно положительные тенденции. Однако, чтобы повысить точность наших моделей, мы занялись разработкой признаков, включая запаздывающие значения, скользящие средние, различия и процентные изменения.

Передовые методы проектирования функций

Используя возможности проектирования признаков, мы ввели лагированные значения, включив в набор данных точки исторических данных. Это позволило нашим моделям улавливать последовательные зависимости настроений в новостях и рыночных индикаторах, повышая их прогнозирующие возможности. Более того, скользящие средние сглаживали шум и выявляли основные закономерности, предоставляя нашим моделям целостное представление о тенденциях.

Также были интегрированы различия и процентные изменения, чтобы подчеркнуть различия в последовательных точках данных. Это позволило нашим моделям распознавать резкие сдвиги и волатильность — особенности, необходимые для прогнозирования настроений в быстро меняющихся рыночных условиях.

Моделирование машинного обучения

Нашим следующим шагом было использование возможностей машинного обучения для прогнозирования настроений. Мы решили использовать два популярных алгоритма классификации: случайный лес и K-ближайшие соседи (KNN). Наши модели были обучены с использованием сбалансированного набора данных, где мы обозначили «0» для негативных настроений и «1» для позитивных настроений.

Модель «Случайный лес» дала многообещающие результаты, продемонстрировав высокую точность, полноту и рейтинг F1 по различным показателям. Например, модель ISM Manufacturing PMI продемонстрировала безупречную 100% точность. Точно так же модель изменения занятости в несельскохозяйственном секторе достигла точности 96%, что демонстрирует способность модели прогнозировать различные результаты настроений.

Аналогично, модель KNN продемонстрировала впечатляющую производительность, соответствующую результатам Random Forest. Для таких показателей, как производственный PMI ISM и уровень безработицы, модель достигла 100% точности, что указывает на последовательные и надежные прогнозы.

Пророк: анализ временных рядов

Наш проект также углубился в анализ временных рядов с использованием библиотеки Facebook Prophet. Мы обучили отдельные модели для каждого показателя, чтобы фиксировать временные закономерности и тенденции. Модели Пророка позволили нам делать прогнозы на будущее на основе конкретных дат. Например, ввод будущей даты для индикатора приведет к прогнозируемому настроению, положительному или отрицательному.

Идеи и выводы

Сочетание машинного обучения и анализа временных рядов для прогнозирования настроений в новостях Форекс оказалось успешным. Наши модели продемонстрировали надежную предсказательную силу: Random Forest и KNN добились впечатляющих результатов. Эти результаты подчеркивают потенциал использования подходов, основанных на данных, для улучшения процесса принятия решений в финансовом мире.

Однако крайне важно признать ограничения. Наши модели обучены на исторических данных и не учитывают непредвиденные события или глобальные сдвиги, которые могут существенно повлиять на настроения рынка. Кроме того, эффективность наших моделей может меняться в экстремальных рыночных условиях.

В заключение, этот проект иллюстрирует синергию анализа данных и машинного обучения в области прогнозирования фундаментальных настроений в новостях Форекс. Используя мощные алгоритмы и знания, полученные в результате исследования данных, мы предлагаем заглянуть в мир, в котором обоснованные решения подкрепляются технологиями. Хотя ни одна модель не может предсказать будущее с абсолютной уверенностью, наш проект демонстрирует потенциал использования данных для навигации в сложном мире финансовых рынков.

Отказ от ответственности: содержание этого сообщения в блоге предназначено только для информационных целей и не должно рассматриваться как финансовый совет или торговые рекомендации. Торговля на Форексе сопряжена с риском, поэтому людям следует провести тщательное исследование и обратиться за профессиональной консультацией, прежде чем принимать торговые решения.

Вот ссылка на репозиторий проекта на Github.