Алешин Л.И.,
зав. СИЦ НБ РГГУ

ПРОБЛЕМЫ ИПЯ И ТЕМАТИЧЕСКОГО ПОИСКА
В ЭЛЕКТРОННЫХ КАТАЛОГАХ

Появление автоматизированных библиотечно-информационных систем (АБИС) несомненно сыграло прогрессивную роль в развитии библиотечного дела, так как их внедрение и использование в первую очередь было нацелено на совершенствование обслуживания пользователей. Однако даже сегодня судить о том, насколько с внедрением АБИС уменьшились (и уменьшились ли) трудозатраты библиотечных специалистов на библиографическую обработку поступающих и имеющихся в фонде библиотек документов (каталогизация, систематизация и т.п.), весьма затруднительно. В специальной периодической печати, материалах различных профессиональных конференций, семинаров такая информация практически отсутствует.

Данная проблема представляет значительный интерес для специалистов. В первую очередь это связано с лингвистическим обеспечением АБИС, базирующимся на информационно-поисковых языках (ИПЯ). При этом речь не идёт о поиске документов по таким заранее известным пользователям элементам, как автор, заглавие, выходные данные. Общеизвестно, что пользователей, особенно занимающихся образовательной и научной деятельностью, чаще всего интересуют фактографические и тематические данные.

Современные заглавия публикуемых материалов становятся всё более неинформативными, т.е. они не отражают ни тематики, ни смыслового содержания документов. В этом случае целесообразно рекомендовать авторам статей включать в качестве продолжения заглавия основные ключевые элементы в виде связанного предложения, раскрывающего предлагаемый ими материал. Вероятно, что такое решение позволит упростить создание поисковых элементов (ИПЯ) в существующих электронных информационных системах.

Ряд специалистов утверждает, что для обеспечения высокого качества поиска следует использовать несколько ИПЯ [6, С.75]. Вполне справедливое заявление, но куда может привести (или завести) подобная технология? Она вызовет (да, уже вызвала) положение, когда всё труднее создавать и поддерживать сложное лингвистическое обеспечение (комплекс лингвистических средств), а для реализации каждого конкретного запроса потребуется «оптимальный набор лингвистических средств и наилучшая поисковая стратегия» [6, С.75]. При этом увеличиваются объёмы баз данных с различными ИПЯ и др. Более того, использование нескольких ИПЯ вызывает появление как параллельных, так и взаимоисключающих информационных признаков [2, С.3].

Вполне оправдано, что лингвистическому обеспечению АБИС постоянно уделяется внимание. Отечественные специалисты, особенно в крупных и крупнейших библиотеках страны, добились значительных успехов, они делали и делают очень много по созданию, совершенствованию и использованию ИПЯ. В этой области библиотечной деятельности, относящейся к автоматизации (информатизации) библиотечных процессов, заметно и большое количество публикаций. Однако утверждать, что мы решили проблему эффективного тематического поиска с помощью существующих ИПЯ не приходится.

В связи с этим возникает предложение – организовать сбор и систематизацию публикаций в области лингвистического обеспечения АБИС; их исследование необходимо как для выявления достижений, так и недостатков в данной работе, а главное – для определения направлений дальнейшей работы. К сожалению, приходится констатировать значительную разрозненность проводимых исследований, особенно удручает то обстоятельство, что средние библиотеки пытаются создавать собственные ИПЯ и использовать их в своей практической деятельности. Негативные последствия такой деятельности начинают ощущаться.

Ещё больший отрицательный эффект следует ожидать в недалёком будущем (по моим оценкам, – в ближайшие 5–10 лет). Он заключается не только и не столько в том, что в таких библиотеках значительно повышается трудоёмкость работ по формированию поисковых систем, элементов и полей, включаемых автоматизаторами в АБИС и заполняемых затем библиотекарями. Проблема состоит в том, что, несмотря на героические усилия библиотекарей, при таких вариантах всё равно не удастся добиться полной раскрываемости фондов библиотек, так как включение в поисковые элементы практически любых классификационных систем (и даже нескольких одновременно) не позволяет учесть все возможные случаи создания поисковых запросов. ИПЯ, создаваемые в одних библиотеках, практически невозможно или весьма затруднительно использовать в других. Собственно, обычно никто из создателей ИПЯ для АБИС, по крайней мере, в средних библиотеках и не задумывается над этой проблемой.

Требовать от пользователей, в случае неудачно проведённого поиска, мыслительной работы по выявлению синонимов и других элементов (слов и словосочетаний), имеющихся в ИПЯ конкретной АБИС для формирования нового или уточняющего запроса, отвечающего их потребностям, в большинстве случаев, не серьёзно. Более того, при этом всё равно нельзя быть уверенным, что удастся найти документы, пертинентные запросу пользователя.

Заметим, что далеко не во всех АБИС в качестве ИПЯ используются ключевые слова. Если же они и имеются, можем ли мы быть уверены, что пользователь включил в поисковое предписание именно те из них, которых действительно есть в ИПЯ данной АБИС?

С другой стороны, интересно отметить, и об этом говорят некоторые специалисты, что в реальном поиске значительное число имеющихся в системе поисковых элементов не используется. Это обстоятельство подтверждает мнение, что остаются проблемы, связанные с полнотой и глубиной отражения содержания документов. Видимо, они будут всегда, пока мы будем использовать подобные технологии.

До сих пор не исчезли разногласия специалистов по отношению к формированию и использованию ключевых слов. Хотя они чаще всего помогают раскрыть содержание документов и найти необходимые материалы, особенно при фактографическом и тематическом поиске, во всех случаях не удаётся обеспечить релевантный отбор необходимых документов. При этом наблюдается увеличение так называемого «информационного шума» – в искомой БД АИБС пользователь может получить на порядок больше документов, чем действительно отвечает его запросу (релевантных).

Убеждён, что подход, при котором пользователь излишне «напрягается» в процессе формирования запроса, а библиотекарь – создавая неэффективные ИПЯ, распыляет силы сотрудников, создаёт ситуацию, когда и так небольшие финансовые возможности библиотек используются неэффективно. При этом результаты поиска далеко не всегда удовлетворяют пользователей и библиографов, создают условия психологического дискомфорта.

Важным аспектом проблемы является полнота отражения содержания документа в используемых ИПЯ. Специалисты отмечают «недостаточную глубину индексирования документов» [6, С.76]. А.В. Соколов считает, что содержание библиографических записей в дальнейшем должно расшириться [7, С.22]. Ключевых элементов, раскрывающих содержание документа (особенно статьи), должно быть больше, достигать нескольких десятков и сотен единиц [2, С.3]. При этом понадобится более тщательно изучать библиографируемый материал, так как наравне с основной темой, авторы зачастую высказывают мнения по другим проблемам, которые имеют или могут иметь в дальнейшем не меньшее значение.

Хорошо известно, что за рубежом, особенно в Америке, проблема каталогизации решается таким образом, что минимум на 80–90% этой работой занимаются несколько специализированных организаций, предоставляя созданные ими библиографические записи всем желающим, в том числе и российским организациям. Пытаясь активно внедрять новые информационные технологии в библиотечную практику, мы почему-то не пришли к подобному решению. Это одна из важных проблем, которая требует своего решения.

Другая проблема заключается в необходимости создания универсальных поисковых механизмов. Е.М. Зайцева считает, что одна из причин сложившейся ситуации является «отсутствие в системе средств, способствующих осуществлению эффективных поисковых стратегий неподготовленным пользователем» [3, С.53]. Полагаю, что проблема значительно шире. Она заключается в том, что у ведущих специалистов в данной области отсутствует общая стратегия, по крайней мере, она не оформлена в виде концепции, представленной широкому кругу специалистов.

Не могу согласиться с мнением А.Б. Антопольского, что «попытка разработки единой классификации – очевидный нонсенс». Хорошие классификации есть. Другое дело, насколько разработчики могут их оперативно актуализировать, а библиотечные работники – эффективно использовать в процессе аналитико-синтетической обработки документов?! Может быть он имел именно это в виду? По крайней мере, не вызывает сомнений потребность унификации, особенно в связи созданием корпоративных информационных ресурсов, сводных и распределенных каталогов.

Перспективным, полагаю, станет направление развития лингвистического обеспечения за счёт использования морфологического анализа и других логарифмических приемов, и в этом следует согласиться с А.Б. Антопольским [5, С.135]. О том, что это направление реализуется свидетельствует сообщение А.И. Земскова – СПА ГПНТБ России будет развиваться, в том числе и в направлении «индексирования полных текстов и формирования объединённого СПА (справочно-поискового аппарата) для электронных и печатных ресурсов» [4, C.31].

Здесь просматривается попытка осуществлять тематический поиск не базируясь на используемых ныне ИПЯ, к недостаткам которых можно отнести как малое число лексических единиц, так и сложность выявления принадлежности узких тем к рубрикам, в которые они должны быть включены.

Легко заметить, что их идеи в большей степени касаются полнотекстовых документов, которые, во-первых, включаясь в информационные ресурсы, доступные в Интернет, в большинстве случаев содержат метаданные. Во-вторых, далеко не все документы и не скоро будут иметь доступную для широкого круга пользователей машиночитаемую форму.

Рассматриваются предложения о формировании реферативных БД, наиболее полно раскрывающих содержание описываемых документов. По ним можно вести полнотекстовый поиск. Это достаточно интересное предложение, но кто будет создавать такие рефераты для всех электронных публикаций? Разве что обязать авторов?! Кстати, в ряде отечественных научных журналов текст статьи предваряется небольшой аннотацией и списком ключевых слов. Может быть распространить это начинание более широко?! В этом случае хотелось бы предложить вместо аннотации использовать реферат, включающий ключевые слова, необходимые для формирования представления о содержании документа. При этом, как авторы, так редакции и другие организации, формирующие полнотекстовые БД, могут воспользоваться специальными анализаторами текста, позволяющими автоматически выявлять в тексте ключевые слова и формировать из него реферат [1 и др.].

Рефераты можно включать в различные БД и обеспечивать таким образом максимальное раскрытие фондов библиотек, не перегружая аппаратные средства большими объёмами машиночитаемых данных. При этом поиск будет проходить быстрее, чем при извлечении необходимых сведений из полных текстов. Реализация подобного варианта решения способна снять значительный груз забот и объем работы с систематизаторов и библиографов при описании документов и создании соответствующих библиографических записей в электронных каталогах библиотек. Пользователи, особенно специалисты, учёные, преподаватели и студенты, получат действительно полезную, удобную и нужную им поисковую систему, позволяющую эффективно находить документы, соответствующие их запросам.

Список использованной литературы:

1. Алешин Л.И. Поиск документов: анализ и новые возможности//Библиография.–2002.–№4.–С.14–22.

2. Воробьев Г.Г. Наука как информационная система//НТИ.–2002.–№2.–С.1–15.

3. Зайцева Е.М. Лингвистическое обеспечение автоматизированных библиотечно-информационных систем: современные требования и направления развития// Научные и технические библиотеки.–2000.–№3.–С.54–57.

4. Земсков А.И. Деятельность ГПНТБ России в 1991–2000 гг. перспективы научно-технических библиотек на следующее десятилетие// Научные и технические библиотеки.–2001.–№10.–С.16–34.

5. Павлова Н.П. «LIBCOM-99» – международный форум специалистов //НТБ.–2000.–№3.–С.101–137.

6. Скарук Г.А. Лингвистическое обеспечение тематического поиска в электронном каталоге// Библиография.–2001.–№2.–С.75-77.

7. Соколов А.В. //Библиография.–2001.–№6.–С.22.

Hosted by uCoz