Я работал над исследовательским проектом. У меня есть база данных Википедии с описаниями большого количества объектов, включая спортсменов, политиков, актеров и т. д. Цель состоит в том, чтобы определить тип объекта, используя описания. У меня есть доступ к некоторым данным с предсказанным типом объекта, который является довольно точным. Это будут мои обучающие данные. Что я хотел бы сделать, так это обучить модель прогнозировать доминирующий тип объекта для остальных данных.
Что я сделал до сих пор:
- Извлечен первый абзац, заголовки H1, H2 вики-описания объекта.
- Извлечен список категорий объекта на вики-странице (нижний раздел «Категории», присутствующий на любой странице как здесь.
Поиск типа объекта может быть затруднен для объектов, которые связаны с двумя или более понятиями, например, актер, который позже стал политиком.
Я хочу спросить, как мне создать модель из необработанных данных, которые у меня есть? Какие переменные я должен использовать для обучения модели? Также есть ли любые методы обработки естественного языка, которые могут быть полезны для этой цели? Я знаю, что POS-теггеры могут быть полезны в этом случае.
Мои поиски в интернете не увенчались успехом. Я наткнулся на исследовательские работы и блоги, такие как этот, но ни у кого из них нет соответствующей информации для этой цели. Любые идеи были бы хорошы. Заранее спасибо!
РЕДАКТИРОВАТЬ 1:
Входные данные — это первый абзац страницы сущности в Википедии. Например, для этой страницы мой ввод будет таким:
Алан Стюарт Франкен (родился 21 мая 1951 г.) - американский комик, писатель, продюсер, писатель и политик, который с 2009 по 2018 год был сенатором США от Миннесоты. Он стал широко известен в 1970-х и 1980-х годах как исполнитель на телевизионное комедийное шоу «Субботним вечером в прямом эфире» (SNL). После десятилетий работы комедийным актером и писателем он стал видным либеральным политическим активистом, ведущим шоу Эла Франкена на радио Air America.
Моя извлеченная информация - это первый абзац страницы, строка всех «Категорий» (нижняя часть страницы) и все заголовки страницы.
type of entity using the descriptions
, а в редактированииextracted information is, the string of all the 'Categories'
. Это только категории на страницах или имя какого-то одного человека? - person Nathan McCoy   schedule 06.06.2018