Контролируемые словари

Русский
Важная роль словарей в информационных системах уже обсуждалась нами выше. При наличии словаря значения для соответствующего поля метаописаний выбираются из строго фиксированного множества слов, ограниченного набором тщательно подобранных терминов. Это может очень серьезно улучшить возможности автоматической обработки метаописаний, а также повысить качество результатов поиска, поскольку компьютеры хороши в побуквенном сравнении слов, но чувствуют себя намного хуже, когда описание термина сделано в «человеческом» стиле, с синонимами, контекстом и т.д. Без терминологического контроля несовместные и некорректные метаданные способны самым плохим образом сказаться на качестве результатов поиска информации. 
   Приведем несколько примеров контролируемых словарей. Стандарт ISO639кодирует имена естественных языков. Версия ISO639-1 обеспечивает двухбуквенные обозначения языков, а ISO639-2 трехбуквенные. В таблице приведены некоторые коды, являющиеся элементами соответствующего контролируемого словаря:



коды 639-1

коды 639-2

язык

en

eng

английский

fr

fre

французский

-

rap

рапандуйский

ru

rus

русский



Еще один пример контролируемого словаря – уже упомянутая выше универсальная десятичная классификация (УДК) – международная библиотечно-библиографическая классификация, активно используемая в библиотечном деле, а также работниками образования и науки. УДК представляет собой иерархическую структуру, каждая вершина которой помечена определенным цифровым кодом. Вот некоторые примеры:

Код

Определение

51

Математика

517

Анализ

517.1

Введение в анализ

517.5

Теория функций, включая метрическую теорию, комплексные переменные и специальные функции.

61:355

Медицина в вооруженных силах





Элементами словаря являются коды. Каждый код обозначает некоторый класс объектов предметной области. Например, УДК 517.1 обозначает совокупность всевозможных материалов (книг, статей, учебников и т.д.), имеющих отношение к началам математического анализа. При этом код 517.1 выступает в роли имени этой совокупности объектов, превращая эту совокупность в ресурс (вспомним определение ресурса как любой сущности, имеющей имя). 
   Элементы больших словарей, как правило, образуют сложные иерархические системы – таксономии. Если моделируемая предметная область имеет сложную организацию и большое количество разнообразных объектов, то количество элементов в словаре также достаточно большое. Например, УДК имеет более ста двадцати тысяч элементарных кодов. С учетом богатых возможностей УДК по образованию сочетаний общее количество вариантов приближается к бесконечности. По сути, это группирование объектов предметной области в классы с определением отношения наследования. При разработке метаданных регулярная иерархическая структура в значительной степени облегчает выбор нужного элемента описания. Таксономии также являются одной из основ для построения «интеллектуальных» сервисов обработки метаданных. 
   Но эти качества уже выходят за рамки понятия «словарь». Они будут рассмотрены нами в последующих пунктах этой главы. Здесь можно провести аналогию с энциклопедиями, которые формируют совокупность терминов в алфавитном порядке. Понятно, что объясняемые в энциклопедии термины имеют сложные взаимосвязи, соответствуют разным классам объектов  и т.д., но явно это никак не влияет на структуру энциклопедии, которая представляет собой словарь с упорядоченными в алфавитном порядке терминами.  
   Ценой использования таких контролируемых словарей является необходимость существования некоторой административной группы, которая поддерживает существование, строгость и развитие того или иного словаря. Например, библиотека конгресса США поддерживает словарь LCSH (US Library of Congress Subject Headings). Консорциум UDC поддерживает УДК. Кроме того, нетривиальной задачей является продвижение словаря в сообщество, обучение словарю людей, занятых работой с метаданными. Сегодня ситуация не очень хорошая. Например, из десяти изданных в России книг, взятых нами наугад, только две имели корректные коды УДК. У остальных книг коды либо не соответствовали тематике, либо были устаревшими. Это довольно серьезная проблема, поскольку вряд ли можно построить поисковую систему на некорректных данных. 
   Системы поиска и обработки метаданных должны отличать ситуации, когда в метаданных используется не обычное ключевое слово, а термин из словаря. Для этого служат специальные квалификаторы, которые явно указывают на используемый в данном метаописании словарь.