1. Классификация твитов о стихийных бедствиях с использованием языковой модели на основе BERT (arXiv)

Автор: Ань Дык Ле

Аннотация: Социальные сети стали важным каналом связи во время чрезвычайных ситуаций. Целью этого исследования является создание языковой модели машинного обучения, которая способна исследовать, был ли человек или область в опасности или нет. Повсеместное распространение смартфонов позволяет людям сообщать о чрезвычайной ситуации, которую они наблюдают, в режиме реального времени. Из-за этого все больше агентств заинтересованы в программном мониторинге Twitter (например, организации по оказанию помощи при стихийных бедствиях и информационные агентства). Разработка языковой модели, способной понять и признать, когда происходит бедствие, на основе сообщений в социальных сетях, со временем станет все более и более необходимой.

2. Идентификация ботов в Твиттере на основе объяснимой платформы машинного обучения: пример выборов в США в 2020 г. (arXiv)

Автор: Александр Шевцов, Христос Цагкаракис, Деспоина Антонакаки, Сотирис Иоаннидис

Аннотация :Twitter — одна из самых популярных социальных сетей, привлекающая миллионы пользователей, при этом фиксируется значительная часть онлайн-дискуссий. Он предоставляет простую структуру использования с короткими сообщениями и эффективным интерфейсом прикладного программирования (API), позволяющим исследовательскому сообществу изучать и анализировать некоторые аспекты этой социальной сети. Однако простота использования Twitter может привести к злонамеренному обращению с ним различных ботов. Явление злонамеренного манипулирования расширяется в онлайн-дискурсе, особенно в предвыборные периоды, когда, кроме легитимных ботов, используемых для целей распространения и коммуникации, целью является манипулирование общественным мнением и электоратом в направлении определенного направления, конкретной идеологии или политической партии. В этой статье основное внимание уделяется разработке новой системы для идентификации ботов Twitter на основе помеченных данных Twitter. С этой целью используется структура контролируемого машинного обучения (ML) с использованием алгоритма Extreme Gradient Boosting (XGBoost), где гиперпараметры настраиваются посредством перекрестной проверки. В нашем исследовании также используются аддитивные объяснения Шепли (SHAP) для объяснения прогнозов модели ML путем расчета важности функций с использованием значений Шепли, основанных на теории игр. Экспериментальная оценка различных наборов данных Twitter демонстрирует превосходство нашего подхода с точки зрения точности обнаружения ботов по сравнению с недавним современным методом обнаружения ботов Twitter.

3. DiPD: набор данных для прогнозирования аварийных событий из Twitter(arXiv)

Автор: Санскар Сони, Дев Мехта, Винуш Вишванатх, Адити Сита, Сатьендра Сингх Чоухан

Выдержка: беспорядки и протесты, если они выйдут из-под контроля, могут вызвать хаос в стране. Мы видели примеры этого, такие как движение BLM, климатические забастовки, движение CAA и многие другие, которые в значительной степени вызвали сбои. Мы создали этот набор данных, чтобы использовать его для разработки систем машинного обучения, которые могут дать пользователям представление о происходящих тенденциях и предупредить их о событиях, которые могут привести к потрясениям в стране. Если какое-либо событие начинает выходить из-под контроля, его можно обработать и смягчить, отслеживая его до того, как проблема обострится. Этот набор данных собирает твиты о прошлых или текущих событиях, которые, как известно, вызвали сбои, и помечает эти твиты как 1. Мы также собираем твиты, которые считаются не связанными с событиями, и помечаем их как 0, чтобы их также можно было использовать для обучения системы классификации. Набор данных содержит 94855 записей об уникальных событиях и 168706 записей об уникальных несобытиях, что дает общий набор данных 263561 запись. Мы извлекаем из твитов несколько функций, таких как количество подписчиков пользователя и местоположение пользователя, чтобы понять влияние и охват твитов. Этот набор данных может быть полезен в различных задачах машинного обучения, связанных с событиями, таких как классификация событий, распознавание событий и т. д.

4. Извлечение названий лекарств из Twitter с использованием дополнений и ансамбля языковых моделей (arXiv)

Автор: Игорь Кулев, Беркай Кёпрю, Рауль Родригес-Эстебан, Диего Салдана, Йи Хуан, Алессандро Ла Торрака, Элиф Озкиримли

Выдержка. Задача BioCreative VII Track 3 была сосредоточена на идентификации названий лекарств в хронологии пользователей Twitter. Для решения этой задачи мы расширили доступные обучающие данные, используя несколько методов увеличения данных. Затем дополненные данные использовались для точной настройки ансамбля языковых моделей, которые были предварительно обучены на общедоступном контенте Twitter. Предложенный подход превзошел предшествующий современный алгоритм Кусури и занял высокое место в конкурсе на выбранную нами целевую функцию, перекрывая оценку F1.

5. Сравнительное исследование анализа настроений с использованием НЛП и различных методов машинного обучения на данных Twitter авиакомпаний США (arXiv)

Автор: Md. Тауфикул Хаке Хан Тусар, Md. Тухидуль Ислам

Вывод. Сегодняшняя бизнес-экосистема стала очень конкурентной. Удовлетворение потребностей клиентов стало основным направлением для роста бизнеса. Бизнес-организации тратят много денег и человеческих ресурсов на различные стратегии, чтобы понять и удовлетворить потребности своих клиентов. Но из-за несовершенного ручного анализа разнообразных потребностей клиентов многие организации не могут добиться удовлетворения клиентов. В результате они теряют лояльность клиентов и тратят лишние деньги на маркетинг. Мы можем решить проблемы, внедрив анализ настроений. Это комбинированный метод обработки естественного языка (NLP) и машинного обучения (ML). Анализ настроений широко используется для извлечения информации из более широкого общественного мнения по определенным темам, продуктам и услугам. Мы можем сделать это из любых доступных онлайн данных. В этой статье мы представили два метода НЛП (мешок слов и TF-IDF) и различные алгоритмы классификации машинного обучения (машина опорных векторов, логистическая регрессия, полиномиальный наивный байесовский алгоритм, случайный лес), чтобы найти эффективный подход к анализу настроений на большой, несбалансированный и многоклассовый набор данных. Наши лучшие подходы обеспечивают точность 77 % с использованием метода опорных векторов и логистической регрессии с методом Bag-of-Words.

6. Вакцина против COVID-19 и социальные сети: изучение эмоций и дискуссий в Твиттере (arXiv)

Автор: Амир Карами, Майкл Чжу, Бейли Гольдшмидт, Ханна Р. Бояджифф, Махди М. Наджафабади

Аннотация:Понимание реакции общества на вакцины против COVID-19 является ключевым фактором успеха в борьбе с пандемией COVID-19. Чтобы понять реакцию общественности, необходимо изучить общественное мнение. Традиционные опросы являются дорогостоящими и требуют много времени, касаются ограниченных тем здравоохранения и позволяют получить небольшие данные. Твиттер может предоставить прекрасную возможность понять общественное мнение о вакцинах против COVID-19. В текущем исследовании предлагается подход с использованием вычислительных методов и методов человеческого кодирования для сбора и анализа большого количества твитов, чтобы получить более широкое представление о вакцине против COVID-19. Это исследование определяет настроение твитов с использованием подхода, основанного на правилах машинного обучения, обнаруживает основные темы, исследует временную тенденцию и сравнивает темы негативных и не негативных твитов с помощью статистических тестов, а также раскрывает основные темы твитов с негативным и не негативным настроением. . Наши результаты показывают, что негативные настроения в отношении вакцины против COVID-19 имели тенденцию к снижению в период с ноября 2020 г. по февраль 2021 г. Мы обнаружили, что пользователи Твиттера обсуждали широкий круг тем, от мест вакцинации до выборов в США 2020 г. в период с ноября 2020 г. по февраль 2021 г. Результаты показывают, что существует значительная разница между твитами с негативным и не негативным настроением в отношении веса большинства тем. Наши результаты также показывают, что негативные и не негативные твиты имели разные приоритеты тем и направленность. Это исследование показывает, что данные Twitter можно использовать для изучения общественного мнения о вакцине против COVID-19.

7. Борьба с инфодемией COVID-19 с помощью глубокого обучения (arXiv)

Автор:Prathmesh Pathwar, Simran Gill

Аннотация:Человечество борется с одним из самых вредных вирусов в современной истории, пандемией COVID-19, но наряду с пандемией существует инфодемия, пронизывающая учеников и общество дезинформацией, которая усугубляет нынешнюю болезнь. Мы пытаемся обнаруживать и классифицировать фейковые новости в онлайн-СМИ, чтобы выявлять фальшивую информацию, касающуюся COVID-19 и коронавируса. Набор данных содержал поддельные сообщения, статьи и новости, собранные с сайтов проверки фактов, таких как politifact, тогда как настоящие твиты были взяты из проверенных дескрипторов Twitter. Мы включили несколько традиционных методов классификации, таких как Naive Bayes, KNN, Gradient Boost и Random Forest, а также подходы к глубокому обучению, в частности CNN, RNN, DNN и ансамблевую модель RMDL. Мы проанализировали эти подходы с помощью двух методов извлечения признаков, TF-IDF и GloVe Word Embeddings, которые обеспечили бы более глубокое понимание набора данных, содержащего информацию о COVID-19, в онлайн-СМИ.