Научная деятельность

Новости

Все новости
RSS лента новостей

Ссылки

Литературный конкурс на сайте Александра Костюнина

Союз образовательных сайтов

Версия для печати Версия для печати

Марахтанов А. Г., Насадкина О. Ю.
Ранжирование документов по релевантности запросу при поиске в Электронной библиотеке Республики Карелия

В 2004 году Региональным центром новых информационных технологий Петрозаводского государственного университета была разработана Электронная библиотека Республики Карелия (ЭБ РК), которая активно используется и в настоящее время. Данный ресурс содержит более 1500 полнотекстовых изданий по различным областям знаний, многие из которых используются в учебном процессе студентами и сотрудниками ПетрГУ [1].

Каждое издание в ЭБ РК снабжено набором полей – метаданных, содержащих информацию об авторах данного ресурса, его названии, годе и месте издания, ключевых словах и т.п. Эти поля формируются в соответствии со стандартом метаописаний Dublin Core. На основании метаданных осуществляется поиск ресурсов в библиотеке.

Несмотря на востребованность ЭБ РК в учебной, научной и практической деятельности, выявлен целый ряд проблем с организацией поиска и навигации в ней, что понижает эффективность использования библиотеки в целом [2]. Одной из таких проблем является отсутствие механизмов ранжирования результатов поиска в соответствии с релевантностью запросу пользователя.

Если обозначить Q = {q1, .., qm} – запрос пользователя, состоящий из m различных слов, а D = {d1, .., dn}– множество из n документов, среди которых осуществляется поиск, то для решения задачи ранжирования необходимо выбрать и применить функцию rel(Q,d), где d  D, для каждого документа d коллекции D, а затем отсортировать документы по убыванию значения данной функции. Таким образом, для документов, лучше соответствующих запросу, данная функция должна возвращать большие значения, чем для документов, менее  соответствующих запросу.

Степень соответствия документа запросу зависит от многих факторов, в частности, от того, где именно в документе (или в полях метаописания) встречается искомое слово (слова), насколько часто и т. п.

Одним из подходов в определении степени релевантности является подсчет коэффициента TF*IDF. Данные подход предполагает, что для каждого слова запроса вычисляется вес,  который  пропорционален количеству употребления этого слова в документе (TF), и обратно пропорционален частоте употребления слова в других документах коллекции (IDF).

Одной из широко известных функций ранжирования является функция BM25 [3].
формула
Где fr(qi, d)– частота появления слова qi в документе d, |d|- общее число слов в документе d,  –  средняя длина всех документов коллекции D, k1 и b – свободные коэффициенты. IDF(qi) - обратная частота документа, в самом простом случае вычисляемая так:  где n – общее число документов в коллекции, n(q) – число документов, содержащих слово q.

Существенным недостатком формулы BM25 является то, что она не учитывает степень значимости поля, в котором встретилось совпадение, хотя, если слово из запроса пользователя присутствует в заголовке документа, это более значимо, чем если оно присутствует только в тексте. Отмеченный недостаток исправлен в модифицированной формуле BM25F [4]. В ней итоговая релевантность определяется как сумма значений, вычисленных по каждому из полей метаописания, с учетом нормировки по средней длине поля, а не документа в целом. При этом, для каждого поля устанавливаются свои значения свободных коэффициентов, по сути определяя важность одного поля относительно других.

Одним из способов определения оптимальных значений свободных коэффициентов в формулах BM25 и BM25F является «прогон» формул по набору запросов и документов, результат ранжирования по которым заранее известен. Кроме того, для определения коэффициентов может использоваться экспертный подход.

Предполагается реализация механизма ранжирования документов по релевантности запросу при поиске в Электронной библиотеке Республики Карелия на основе функций BM25 и BM25F.

Разработка и реализация механизмов ранжирования документов ЭБ РК в соответствии с релевантностью их запросу пользователя, наряду с другими мерами, направленными на улучшение поисковых и навигационных механизмов в библиотеке (таких, как полнотекстовый поиск, поиск по авторам, поиск с учетом морфологии) позволит повысить эффективность использования данного ресурса в учебной, научной и практической деятельности.

 

Литература:
[1] Рузанова Н.С., Насадкина О.Ю., Байтимиров Л.З., Гушкалова А.Г., Марахтанов А.Г. Электронная библиотека Республики Карелия. Труды XIV Всероссийской научно-методической конференции Телематика'2007 (18-21.06.2007, г. Санкт-Петербург). 2007. Т. 2. С. 390-391.

[2] Байтимиров Л. З., Власова А. Г., Марахтанов А. Г., Насадкина О. Ю., Фотина Е. В. О проблеме информационного поиска в Электронной библиотеке Республики Карелия. Материалы научно-методической конференции "Университеты в образовательном пространстве региона: опыт, традиции и инновации" (16-17 февраля 2010 г., Петрозаводск). 2010. С. 71-74.

[3] Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock-Beaulieu, and Mike Gatford. Okapi at TREC-3. In Proceedings of the Third Text REtrieval Conference (TREC 1994). Gaithersburg, USA, November 1994. с. 109-126

[4] Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria, and Stephen Robertson. Microsoft Cambridge at TREC-13: Web and HARD tracks. In Proceedings of TREC-2004, 2004. http://trec.nist.gov/pubs/trec13/papers/microsoft-cambridge.web.hard.pdf

При цитировании ссылка обязательна:
Марахтанов А. Г., Насадкина О. Ю. Ранжирование документов по релевантности запросу при поиске в Электронной библиотеке Республики Карелия. Материалы научно-методической конференции «Современные информационные технологии в образовании: Южный Федеральный округ» (Южный федеральный университет, г. Ростов-на-Дону, 15-16 апреля 2010 г.). 2010. С. 221-223.
http://marahtanov.ru/science/publ/2010/rost2010/index.html

Обсудить статью, задать вопросы, высказать замечания и предложения можно на форуме.

Поиск по сайту

Пользовательского поиска

    Мой аккаунт в Twitter: @alikrpk

    Форум

    Последнее сообщение

    Перейти в раздел

    Если нашли ошибку

    Система Orphus


    Статистика

    Rambler's Top100