Научная деятельность

Новости

Все новости
RSS лента новостей

Ссылки

Литературный конкурс на сайте Александра Костюнина

Союз образовательных сайтов

Версия для печати Версия для печати

Насадкина О.Ю., Марахтанов А. Г.
О проблеме поиска по авторам в Электронной библиотеке Республики Карелия

Электронная библиотека Республики Карелия (ЭБ РК) (http://elibrary.karelia.ru) предоставляет доступ к коллекции полнотекстовых документов различной тематики. В основном библиотека содержит краеведческую литературу, произведения карельских авторов, издания из фондов библиотек региона. Ресурсы ЭБ РК активно используются в учебной, научной и практической деятельности в Карелии и за ее пределами [1].
Несмотря на востребованность ЭБ РК, выявлен целый ряд проблем с организацией поиска и навигации в ней, что понижает эффективность использования библиотеки в целом [2]. Одной из подобных проблем является отсутствие гибких механизмов поиска по авторам.
Все издания, размещенные в библиотеке, снабжены набором полей метаданных, соответствующих формату Dublin Core, таких, как название, авторы, аннотация, список ключевых слов и т.п. Таким образом, поиск по авторам может осуществляться на основании совпадения запроса с соответствующим полем метаданных.
Возможны следующие интерфейсные решения задачи поиска по авторам в ЭБ РК:
• как элемент расширенного поиска, когда пользователь вводит в поисковую форму полностью или частично ФИО автора;
• вывод списка всех авторов в алфавитном порядке, с возможностью перехода на список всех произведений автора;
• переход на страницу со всеми произведениями каждого из авторов, при просмотре карточки ресурса;
• вывод дополнительной информации о наиболее известных авторах библиотеки (биография, фотография, список не представленных в ЭБ РК произведений).
Существенной проблемой при реализации предложенных интерфейсов поиска и навигации является отсутствие единого формата при заполнении поля «авторы». Встречаются более 10 различных способов написания ФИО автора, например:
• Одоевский Владимир Фёдорович (Фамилия Имя Отчество);
• Бохонский Д. О. (Фамилия И. О.);
• Е. П. Шемилина (И.О.Фамилия);
• Т.Ашер (И.Фамилия);
• Бергштрессер К. (Фамилия И.);
• Boitchenko Larissa (Familia Imja);
• и т.п.
При этом даже один и тот же автор часто записан в различных форматах. Таким образом, для реализации поиска по авторам, необходимо:
• выбрать единый формат для представления данных об авторе;
• привести уже добавленные в базу авторов строки к единому формату;
• модифицировать интерфейсы ввода и редактирования метаданных изданий в ЭБ РК, с целью упрощения последующего ввода авторов в едином формате и автоматической проверки введенных модераторами данных;
• реализовать предложенные выше интерфейсы.
В качестве единого формата представления данных об авторе был выбран следующий: «Фамилия Имя Отчество». Они должны записываться всегда в таком порядке, каждое в начальной форме (именительный падеж, единственное число), начинается с заглавной буквы. Разделителем служит одиночный пробел. При отсутствии данных допустимо указание инициалов вместо имени и отчества.
Для приведения уже накопленных данных к единому выбранному формату предлагается, во-первых, исправить явные ошибки, где это возможно, при помощи регулярных выражений (поиск по шаблону и замена) и транслитерации набранных латиницей имен, а, во-вторых, воспользоваться математическими мерами близости строк для группировки похожих ФИО авторов с целью упрощения дальнейшей ручной модерации.
Одной из наиболее часто используемых в подобных задачах мерой близости строк является расстояние Левенштейна (также известное, как редакционное расстояние или дистанция редактирования) [3, 4]. Это мера разницы двух последовательностей символов (строк) относительно минимального количества операций вставки, удаления и замены, необходимых для перевода одной строки в другую.
Одним из минусов использования расстояния Левенштейна в нашей задаче является то, что при перестановке местами слов или частей слов получаются сравнительно большие расстояния. А в нашем случае перестановка слов (например, «Вихавайнен Тимо», «Тимо Вихавайнен») будет встречаться достаточно часто. И даже расстояние Левенштейна-Дамерау, в котором введена дополнительная операция – перестановка соседних символов (при условии, что эти символы являются смежными в обоих строках), не будет вполне адекватной мерой для данных случаев.
Использования расстояния Хемминга также не рекомендуется, поскольку в нашем случае будут сравниваться строки различной длины.
Другим возможным подходом к решению поставленной задачи является использование N-граммных расстояний, основанных на вычислении меры близости по количеству общих подстрок фиксированной длины [5]. Эти подстроки называются N-граммами.
Для любого слова или фразы могут быть построены N-граммы различной длины. Например, имени Тимо соответствуют 3 биграммы («Ти», «им», «мо»), 2 триграммы («Тим», «имо») и т.д. Наличие общих N-грамм повышает оценку близости строк, причем, чем больше порядок совпавшей N-граммы (число N), тем больше должна быть эта оценка.
После приведения списка авторов к единому формату, необходимо внедрение новых интерфейсов ввода метаинформации об издании, которые исключали бы возможности некорректного ввода, и, при этом, упрощали бы ввод за счет возможности выбора из уже внесенных в систему авторов. Кроме того, должна быть реализована возможность добавления дополнительной информации об авторе.
Анализ поисковых запросов, осуществляемых в действующей системе поиска, показывает, что доля поиска книг по ФИО автора велика. При этом обозначенные в данной работе проблемы с форматированием данных об авторе осложняют осуществление подобных запросов. Ожидается, что решение данных проблем будет способствовать повышению эффективности, удобства и комфорта при ее использовании, в том числе в учебной и научной видах деятельности, осуществляемой на основе фондов ЭБ РК.

Литература
1. Рузанова Н.С., Насадкина О.Ю., Байтимиров Л.З., Гушкалова А.Г., Марахтанов А.Г. Электронная библиотека Республики Карелия. Труды XIV Всероссийской научно-методической конференции Телематика'2007 (18-21.06.2007, г. Санкт-Петербург). 2007. Т. 2. С. 390–391.
2. Байтимиров Л.З., Власова А.Г., Марахтанов А.Г., Насадкина О.Ю., Фотина Е.В. О проблеме информационного поиска в Электронной библиотеке Республики Карелия. Материалы научно-методической конференции "Университеты в образовательном пространстве региона: опыт, традиции и инновации" (16-17 февраля 2010 г., Петрозаводск). 2010. С. 71–74.
3. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академий Наук СССР, 1965. С. 845–848.
4. Гасфилд Дэн. Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология / Пер. с англ. И.В. Романовского. – СПб.: Невский Диалект; БХВ Петербург, 2003.
5. Cavnar W.B., J.M. Trenkle, ''N-Gram-Based Text Categorization'' In Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, UNLV Publications/Reprographics, pp. 161-175, 11-13 April 1994.

Поиск по сайту

Пользовательского поиска

    Мой аккаунт в Twitter: @alikrpk

    Форум

    Последнее сообщение

    Перейти в раздел

    Если нашли ошибку

    Система Orphus


    Статистика

    Rambler's Top100