Научная деятельность

Новости

Все новости
RSS лента новостей

Ссылки

Литературный конкурс на сайте Александра Костюнина

Союз образовательных сайтов

Версия для печати Версия для печати

Насадкина О. Ю., Марахтанов А. Г.
О семантическом поиске в электронной библиотеке вуза

В настоящее время наблюдается значительный интерес со стороны научного сообщества к проблемам семантического поиска информации. Действительно, данный вид поиска должен обеспечивать лучшую релевантность результатов запросу пользователя, поскольку осуществляется не только на основе статистических наблюдений о встречаемости терминов в документах, но и с учетом семантики, смысла текста. Кроме того, подобные системы должны не только выдавать список ресурсов, содержащих ответ на запрос, но и указывать непосредственно ответ на заданный пользователем вопрос.

Большое развитие получили модели представления знаний для семантического поиска ресурсов в сети Интернет, разработаны языки описания онтологий, такие, как RDF и OWL. Страницы в Wikipedia описываются на основе модели представления знаний semantic wiki. Семантически размеченный интернет уже получил название Web 3.0.

Для осуществления глобального семантического поиска в сети Интернет существуют такие поисковые системы, как зарубежные SearchMonkey от Yahoo, Powerset, Freebase, отечественная AskNet. Для семантического поиска в коллекции данных разработаны информационные системы, такие как BRICK (средство поиска в цифровых ресурсах, содержащих знания о культуре), SIMILE и FEDORA (поиск в цифровых ресурсах различного типа). Из российских разработок можно отметить проект Семантической библиотеки Свердловской области (http://semantic.uraic.ru), который в настоящее время находится в стадии разработки. Кроме того, построены и доступны для использования различные онтологии верхнего уровня, такие, как OpenCyc, DOLCE, SUMO, содержащие универсальные базовые понятия и отношения.

В то же время, многие из существующих на данный момент систем семантического поиска на практике не дают результаты лучше, чем классические средства. Это обусловлено тем, что для осуществления семантического поиска часто используют средства ввода и обработки запросов, пришедшие из классических систем информационного поиска, а также тем, что поиск осуществляется по коллекции, относящейся к большому числу различных предметных областей, в которых есть пересечения используемых терминов и понятий, осложняющие автоматическое индексирование и распознавание семантических конструкций в текстах.

Таким образом, повышению качества поиска (его точности или полноты) в семантических базах знаний будет способствовать:

Во-первых, применение специально разработанных для этого интерфейсов, отличных от принятого во многих системах способа – ввода запроса на естественном языке в строку. При этом серьезной задачей является разработка таких интерфейсов, которые, с одной стороны, позволяли бы указывать дополнительные параметры в запросе (значимые свойства объектов, виды отношений и т. п.), с другой стороны были бы понятны пользователю и не требовали значительных дополнительных временных затрат на ввод данных.

Во-вторых, сужение предметной области и использование специально разработанных для выбранной предметной области концептуальных моделей знаний (онтологий).

С учетом обозначенных выше положений предполагается разработка системы семантического поиска информации в коллекции текстовых ресурсов схожей тематики. В качестве предметной области выбрана краеведческая информация о регионе России (Карелии). В качестве текстовых документов – источников информации, выбран корпус текстов о Республике Карелия из фондов Электронной библиотеки Республики Карелии (более 1500 ресурсов соответствующей тематики).

Данная работа будет состоять из следующих этапов:

Во-первых, построение концептуальной модели знаний о предметной области, содержащей основные типы объектов, свойств объектов и отношений базы знаний.

Во-вторых, разработка и применение методов семантического индексирования, в том числе методов лексико-морфологического и синтаксического анализа текстов (что позволит из множества терминов сформировать массив слов и словосочетаний в начальной форме и их характеристик) и методов семантического анализа и разметки текстов (на основе концептуальной модели).

На этих этапах предполагается использование специально отобранных и подготовленных специалистами словарей, как общих (словари синонимов, омонимов, аналогий), так и специфических для выбранной предметной области словарей наименований географических, административно-территориальных объектов, учреждений, организаций и ведомств региона и т.п.).

В-третьих, реализация методов и моделей информационного поиска, учитывающих семантику и зависимость между терминами.

В-четвертых, использование методов построения баз данных и информационных систем, методов реализации веб-интерфейсов, методов программной реализации поисковых моделей. Основными требованиями к веб-интерфейсам, реализующим взаимодействие осуществляющих запросы пользователей с базой знаний, должны являться: скорость обработки запроса, наглядность представления данных, простота использования, возможность объяснения полученных результатов, возможность отсылки к источнику информации – текстовому документу коллекции.

Представляется необходимым при разработке обозначенной системы принимать во внимание следующие обстоятельства, которые смогут повысить качество выполняемой работы и качество семантического поиска, осуществляемого посредством системы, в целом:

·         тщательно анализировать поисковые потребности пользователей и учитывать их при разработке концептуальной модели предметной области;

·         учитывать опыт построения других систем семантического поиска;

·         использовать существующие стандарты в данной области (такие, как языки представления онтологий RDF или OWL).

Созданная в соответствии с обозначенными в данной работе принципами система семантического поиска станет важным элементом Электронной библиотеки Республики Карелия (http://elibrary.karelia.ru), разрабатываемой сотрудниками Регионального Центра Новых Информационных Технологий Петрозаводского Государственного университета. Она позволит эффективнее решать задачи поиска, возникающие в процессе обучения или научного исследования, связанного с использованием ресурсов коллекции [1, 2].

Предполагается, что содержательное и технологическое развитие Электронной библиотеки Республики Карелия будет способствовать повышению эффективности ее использования в ученой деятельности, росту числа посещений библиотеки, росту числа научных исследований, проводимых с использованием документов, представленных в библиотеке.

 
Источники:

1.      Марахтанов А. Г. Совершенствование Электронной библиотеки Республики Карелия за счет внедрения новых поисковых и навигационных сервисов // Научно-методический журнал "Информатизация образования и науки", №4 (8). 2010. С. 46 – 55

2.      Марахтанов А. Г.  Совершенствование системы поиска в Электронной библиотеке Республики Карелия // Материалы XII всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL'2010. 2010. С. 465-468.

При цитировании ссылка обязательна:
Насадкина О. Ю., Марахтанов А. Г. О семантическом поиске в электронной библиотеке вуза. // Материалы V международной научно-практической конференции "Информационная среда вуза XXI века" (26-30 сентября 2011 года, Петрозаводск). Петрозаводск:издательство ПетрГУ, 2011. - С. 130 - 132.
Для online-проектов необходима гиперссылка
http://marahtanov.ru/science/publ/2011/it2011/index.html

Обсудить статью, задать вопросы, высказать замечания и предложения можно на форуме.

 

Поиск по сайту

Пользовательского поиска

    Мой аккаунт в Twitter: @alikrpk

    Форум

    Последнее сообщение

    Перейти в раздел

    Если нашли ошибку

    Система Orphus


    Статистика

    Rambler's Top100