Онтологии присутствуют в исследованиях искусственного интеллекта по меньшей мере сорок лет, вступив в свои права в 80-х на волне исследований, которые к середине 90-х катапультировали их популярность. Однако к 2000-м годам интерес к онтологиям ослаб, поскольку машинное обучение стало горячей новой технологией для поисковых систем и рекламы. Но за последнее десятилетие два слова снова привлекли внимание к онтологиям и семантическим данным: графы знаний.

Графы знаний были приняты многочисленными техническими гигантами, в первую очередь Google, который несет ответственность за популяризацию этого термина. Но это новое широкое внимание со стороны исследовательского сообщества помогло разжечь значительную дискуссию среди экспертов по представлению знаний: что вообще такое граф знаний?

По правде говоря, никто не уверен - или, по крайней мере, нет единого мнения.

Каковы компоненты графов знаний?

Эксперты по представлению знаний, которые специализируются на онтологиях, управляемых семантикой, не будут скучать по этому поводу: граф знаний обязательно строится на семантике. Они утверждают, что семантика - это основа для создания новых выводов из данных, которые в противном случае остались бы незамеченными. Это разница между тем, что генерирует новые знания, и бездействующей базой данных, ожидающей запроса. Все, что меньше, - это просто помеченный график.

Что-то есть в этой философии. Граф знаний не похож на любую другую базу данных; предполагается, что он дает новое понимание, которое можно использовать для вывода новых вещей о мире. Если это просто набор помеченных стрелок, то это не соответствует концепции графа знаний как метода искусственного интеллекта. На тот момент это просто модная база данных.

С учетом сказанного, Google в значительной степени отказался от семантики при построении сети знаний - технологии, которая в первую очередь популяризировала этот термин. Вначале Сеть знаний была частично основана на Freebase, известной базе знаний общего назначения, которую Google приобрела в 2010 году. Сегодня Сеть знаний по-прежнему использует schema.org, совместную работу нескольких технологических гигантов. разработать схему тегирования контента в Интернете. Однако использование логической семантики schema.org очень ограничено. Многие эксперты согласятся, что Сеть знаний не имеет смысла в семантике.

Помимо семантики, есть еще одно, более фундаментальное поле битвы, о котором ведутся споры: размер. Многие согласятся, что масштабность - это часть того, что отличает онтологию от графа знаний. Онтологии обычно считаются небольшими наборами утверждений, которые собираются вручную, обычно для решения проблем, связанных с конкретной предметной областью. Для сравнения, графы знаний могут включать в себя буквально миллиарды утверждений, как часто специфичных для предметной области, так и междоменных.

Хотя такой вид разбивки и привлекателен, нельзя отрицать, что это в основе своей произвольная концепция, которая с каждым днем ​​становится все менее полезной. Определение маленький в Интернете было взорвано потоком данных, как машинных, так и пользовательских. Маленький может означать от 100 до 100 000 строк данных - или, в нашем случае, утверждений - в зависимости от того, кого спрашивают. Это несоответствие прекрасно отражено в генной онтологии, которая по состоянию на 2008 год насчитывала более 24 500 терминов. Это было десять лет назад; GO настолько вырос, что Springer выпустил 300-страничный справочник, специально посвященный тому, как его использовать. Если размер является решающим фактором, то онтология генов почти наверняка должна называться графом знаний о генах.

Где именно заканчиваются онтологии и начинаются графы знаний?

Даже подобная постановка вопроса в одном измерении вызовет сопротивление среди экспертов в области инженерии знаний. Многие возразят, что разрыв между онтологией и графом знаний не имеет ничего общего с размером или семантикой, а скорее с самой природой данных. Например, разделение всех структур классов и определений отношений на одну группу и всех данных уровня экземпляра в другую может реализовать их идею онтологии и графа знаний, соответственно - один будет использоваться для вывода, а другой будет запрошен для примеров.

Маловероятно, что в ближайшее время появится консенсус относительно того, что такое граф знаний и чем он отличается от онтологии. На данный момент будет более полезно помнить, что эти два подхода в основе своей идентичны. Большинство предостережений проистекает из разногласий по поводу размера, роли семантики и отделения классов от данных экземпляра. Но когда дело доходит до сути, они, как правило, представляют собой большую или меньшую версию друг друга с более или менее сложными методами кодирования знаний под капотом.

— — — — — — — — — — — — — — — — — —

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.