Семантическая паутина — что это кратко и как она работает

Семантическая паутина – это способ организации информации в Интернете, который существенно повышает качество ее обработки компьютером. Математической основой этого способа является дескрипционная логика, которая предписывает фиксировать любую информацию в виде так называемых триплетов – коротких высказываний, состоящих из трех компонентов. Эти компоненты называются «субъект», «предикат» и «объект». Если говорить просто, то субъекты и объекты – это все, что может быть выражено именами существительными или именами собственными: люди, географические объекты, понятия. А предикаты – это все, что может быть выражено глаголами. Предикаты являются связками между субъектами и объектами.

Как возникла идея семантической паутины

В конце 90-х стало понятно, что Интернет за несколько лет своего существования превратился в плохо организованную свалку информации. Виноват в этом оказался язык разметки HTML, на котором осуществляется публикация любых текстов в глобальной сети. Этот язык в сочетании с таблицами стилей позволяет творить чудеса веб-дизайна, он прост в освоении и понятен даже детям, но он не дает никакой информации о смысле того текста, который опубликован с его помощью. И если поначалу в этом никто не видел проблемы, то с лавинообразным увеличением количества информации в Интернет это сильно затруднило поиск.
Сами же авторы идеи глобальной сети – Тим Бернерс Ли и Консорциум W3C – предложили концепцию семантической паутины как плана по исправлению этой ситуации.

На чем основана концепция семантической паутины

Концепция семантической паутины состоит в том, что всем субъектами, предикатам и объектам необходимо выделить уникальные идентификаторы, похожие на всем известные URL, а потом записывать все возможные факты в виде триплетов, используя эти идентификаторы.
Например, текст «Художник Леонардо да Винчи, который является автором «Джоконды», родился в 1442 году» можно представить в виде следующих триплетов:

  • {Леонардо да Винчи, Иметь профессию, Художник},
  • {Леонардо да Винчи, Родился, 1492},
  • {Леонардо да Винчи, Создал, «Джоконда»}.

Это не очень красиво звучит с точки зрения человека, но зато очень удобно для обработки компьютером. Все данные, связанные с Леонардо да Винчи могут быть найдены запросом по его уникальному идентификатору.

Как можно использовать семантическую паутину на практике

Мало кому известно, что в Википедии можно не только искать статьи по ключевым словам, но и делать запросы со сложными критериями отбора. Технически эта возможность организована следующим образом. В ходе краудсорсингового проекта начатого в Германии была реализована семантическая база знаний, основанная на информации, извлеченной из Википедии. Проект называется DBpedia.

Таким образом, над Википедией построена семантическая сеть, которая постоянно пополняется новыми данными и синхронизируется с первоисточником. Кроме того, для работы с DBpedia открыто несколько так называемых точек доступа SPARQL, где можно строить самые разные запросы на специальном языке SPARQL. Одна из наиболее известных точек доступа находится по адресу dbpedia.org/snorql/.

С помощью этой технологии можно получить ответ на такие запросы как «найти всех писателей, которые родились до 1925 года» или «найти все авиакомпании, которые имеют доход выше 0,2 млрд евро». Выявить эту информацию поиском по ключевым словам невозможно, а вот с помощью запроса к семантической паутине – дело пары минут.

Рейтинг
( Пока оценок нет )
Загрузка ...