Алешин Л.И.

ПОИСК ДОКУМЕНТОВ: АНАЛИЗ И НОВЫЕ ВОЗМОЖНОСТИ

С появлением первых электронных библиографических поисковых механизмов, входящих в состав автоматизированных библиотечно-информационных систем (АБИС), и Электронных каталогов (ЭК) остро возникла проблема расширения поисковых элементов. Для проведения релевантного поиска необходимых пользователю документов в большинстве случаев недостаточно элементов библиографических описаний документов, хранящихся в полях “заглавия”, “фамилии авторов” и “выходные данные” (вербальные данные), е5сли ему заранее неизвестны эти элементы. большинстве случаев недостаточно для проведения релевантного поиска необходимых пользователям документов, если ему заранее неизвестны эти элементы. Заглавия, как правило, неинформативны, не отражают ни тематики, ни содержания документов. Наибольшие трудности возникают при организации тематического поиска. Свой путь решения этой проблемы предлагает автор публикуемой нами статьи.


В качестве поисковых элементов в АБИС используется лингвистическое обеспечение, базирующееся на информационно-поисковых языках (ИПЯ), к которым относятся термины и словосочетания, входящие в состав классификационных систем (УДУ, ББК, ГРНТИ и др.), тематических рубрик, алфавитно-предметных указателей (АПУ) и т.п.

«Лингвистическое обеспечение АБИС понимается как применяемая в её технологиях совокупность информационных языков, словарных баз данных, лингвистических процессов, средств ведения и использования словарей»[1]. Оно используется при индексировании документов и запросов пользователей главным образом для организации эффективного тематического поиска отраслевого и предметного типа. Специалисты полагают, что в АБИС предпочтительно использовать одновременно несколько классификационных систем и, соответственно, несколько информационно-поисковых языков классификационного типа для расширения возможности поиска, обмена и др.[2]

Конечно, при формировании поискового запроса можно использовать классификаторы (УДК, ДДК, ББК, ГРНТИ и др.), но даже специалисты знают наизусть лишь ограниченный набор классификационных индексов, обычно в какой-нибудь одной классификационной системе. Для пользователей это нереально по многим причинам. Но даже применяемое в библиотеке различное лингвистической обеспечение для электронного каталога «…не используется в полной мере в реальном поиске. Одна из причин сложившейся ситуации – отсутствие в системе средств, способствующих осуществлению эффективных поисковых стратегий неподготовленным пользователем». [3]

Предлагать же пользователю вводить для поиска необходимые классификационные индексы нецелесообразно. Считается, что они обеспечивают возможность предварительной ориентации по теме запроса на стадии составления поисковых предписаний. Разработчики АБИС предложили дополнительные поля, в которые можно вводить, аннотации, названия рубрик (тематических, хронологических и др.) и ключевые слова. Эти и многие другие элементы, дополняющие библиографическое описание источника данных, входят в состав форматов, подобных MARC.

Наибольшее внимание библиотечных специалистов привлекли ключевые слова. Оказалось, что индексаторы и пользователи положительно оценивают поиск с помощью ключевых терминов, они понятны и тем и другим. При проведении сравнительного анализа поисковых возможностей ИПЯ в ГПНТБ СО РАН было установлено, что наиболее высокую точность (91%) показал поиск по ключевым словам при средней полноте выдачи 25%. Это обстоятельство исследователи связывают с тем, что в электронном каталоге ГПНТБ СО РАН ключевые слова используются в дополнение к контролируемым ИПЯ. Они же отмечают, что при поиске по ключевым словам для наибольшего числа запросов (15) получены уникальные (выданные только за счёт данного языка) документы.

На основе ключевых слов многие АБИС позволяют создавать и поддерживать словари по различным элементам библиографического описания. Предлагались различные варианты заполнения этого поля, однако проблема по-прежнему не решена. Библиотеки, использующее данное поле, по-разному вводят ключевые слова: в единственном и (или) множественном числе, отдельными словами или словосочетаниями, причем как в прямом, так и (или) в инверсном вариантах: например, легкая промышленность или промышленность легкая. Важным элементом является количество ключевых слов, описывающих один документ. Считается, что оно должно быть не менее 10 и не более 20–25. Понятно, что даже 10 ключевых слов не всегда легко присвоить конкретному документу, и эта процедура отнимает не мало времени.

К основным факторам, влияющим на процесс индексирования, специалисты относят “степень раскрытия информации, которая прямо зависит от эрудиции индексатора в общих вопросах и его компетентности в специальной области знаний”, и полагают, что “лакуны” в словарном обеспечении БД “могут быть хорошо компенсированы избыточным индексированием документов”[4].

Однако даже если бы удалось решить все названные проблемы, остаётся, по крайней мере, одна: откуда брать ключевые слова. Многие специалисты утверждают, что следует обращать внимание на заглавие, аннотацию и содержание книги. Очевидно, в подавляющем большинстве случаев этого действительно достаточно, чтобы с помощью, таким образом, выбранных (сформированных) ключевых слов наиболее полно отразить содержание книги. Хотя аннотация достаточно часто весьма поверхностно, а порой и не точно отражает содержание аннотируемого документа. А как быть, если осуществляется роспись статьи? В этом случае аннотация и оглавление отсутствуют, и приходится просматривать содержание статьи.

Легко заметить, что ключевые слова - не панацея от бед. Более того, кажущееся решение проблемы создания поисковых элементов с помощью ключевых слов, максимально отражающих содержание документа, – “айсберговая” ситуация. Кроме всего перечисленного выше, возникает ещё одна проблема – как быть с синонимами? Например, термину “компьютер”, могут соответствовать термины “ЭВМ”, “ПК”, “вычислительная машина” и др. Более того, некоторые специалисты в данном случае используют такие термины, как «компьютеры» (множественное число), «персональный компьютер» (раскрытие аббревиатуры) и др. При этом засоряется словарь ключевых слов. Требуется либо организовать систему ссылок, которая в ряде АИБС не всегда будет давать необходимый эффект, либо каждому документу приписывать возможные термины-синонимы, что не только не эффективно, но порой и невозможно. Это связано не только с особенностями АИБС, но и с чисто человеческим фактором: специалист, приписывающий документу ключевые слова, должен постоянно помнить все синонимы используемого термина, что невозможно, либо пользоваться печатными вариантами тезаурусов и рубрикаторов, что замедляет его работу и вызывать психологический дискомфорт.

Таким образом, следует признать, что, с одной стороны, ключевые слова помогают при поиске документов; с другой – не позволяют во всех случаях обеспечить релевантный отбор необходимых документов.

Некоторые специалисты предлагают решить эту проблему путём создания электронных тезаурусов и рубрикаторов, ссылки на которые можно было бы организовать при росписи документов. В этом случае выделяют следующую последовательность работы: индексирование информации; составление тезауруса; организация и проведение поисков на основе широкого использования электронных рубрикаторов и тезаурусов. Идея нашла реализацию за рубежом, всё чаще подобные системы появляются среди отечественных разработок АБИС. Опыт использования таких рубрикаторов показывает, что ГРНТИ гораздо более приспособлен для автоматизированных технологий, чем ББК. Не без оснований высказывается мнение, что система понятий технических наук более конкретна и лучше соотносится с жёсткой структурой классификационных схем. Кроме того, в ББК, например, отсутствует рубрика «Информатика», а её элементы присутствуют в других рубриках. Неудобно решена подрубрика «Связь», новые элементы которой отсутствуют и т.д. Системы создания электронных рубрикаторов, входящие в состав соответствующих АБИС, порой далеки от совершенства. Недостаточными являются полнота и глубина отражения содержания (индексирования документов) и специфичность лексических единиц используемых классификационных языков. В результате увеличивается доля ошибок составления поискового предписания. При формировании тезауруса по ББК возникают длинные цепочки (до 5 элементов и более), что затрудняет работу с ними специалистов при выборе необходимых рубрик, описывающих тот или иной документ. Трудно быстро модифицировать рубрикатор, а изменить или удалить генеральные рубрики вообще невозможно. «Эксперты считают, что функционирующие сегодня классификационные системы вряд ли сохранятся далее первых двух десятилетий грядущего века, если не найдут сил и возможности для коренных преобразований» [5].

Как быть, если при описании статьи не удалось отыскать в таком рубрикаторе необходимого термина, или он есть, но включён, например, не в «Радиоэлектронику» (напомним, что рубрики «Информатика» нет), а в «Экономику»? Многие аналогичные термины находятся в нескольких рубриках, однако в необходимой систематизатору или библиографу их может не оказаться. Произвести быструю актуализацию электронного рубрикатора затруднительно, а роспись статей должна осуществляться оперативно. В этом случае также вырисовывается «эффект айсберга». Пользователю при проведении поиска всё равно, в какой подрубрике находится нужное ему ключевое слово, и документ всё-таки будет найден, но насколько он будет релевантен (не говоря уже о пертинентности), сказать затруднительно. Как правило, в подобных ситуациях пользователь получает примерно на порядок больше, чем есть в базе данных документов отвечающих его запросу. Понятно, что работать с таким отобранным массивом трудно. Более того, если документ не относится к рубрике, внутри которой был выбран необходимый элемент, а поиск осуществлялся по термину, соответствующему генеральной рубрике, то все несоответствующие документы будут отобраны в результате подобной операции.

Не вызывает сомнения, что такие тезаурусы в большей степени будут локальны, т.е. их будет возникать великое множество. Предполагается использовать одновременно несколько сочетающихся и взаимодополняющих друг друга ИПЯ. Однако это под силу лишь крупным библиотекам (например, ГПНТБ), да и то возможность оперативной и эффективной их организации и поддержки вызывает сомнение. Можно , конечно, идти по пути бесконечного совершенствования методик индексирования, создания новых и поддержки существующих ИПЯ и др. А. Антопольский полагает, что дальнейшее развитие лингвистического обеспечения должно "развиваться в сторону интеллектуализации систем поиска за счёт использования морфологического анализа, статистики" и других логарифмических приемов [6].

Может сложиться впечатление, что решить проблему релевантного и пертинентного поиска невозможно. Отчасти с этим приходится согласиться, особенно при проведении поиска в Интернете. Однако научная мысль не стоит на месте, и уже сегодня существуют разработки, которые вероятнее всего, помогут решить данную проблему. Так, директор ГПНТБ России А.И. Земсков считает, что развитие справочно-поискового аппарата ГПНТБ России будет развиваться, в том числе и в направлении «индексирования полных текстов и формирования объединённого СПА (справочно-поискового аппарата) для электронных и печатных ресурсов» [7].

С одной стороны, пристальное внимание уделяется формированию метаданных (это информация об информации; информация, формируемая издателями электронных ресурсов, представляющая обязательный минимум сведений, позволяющий использовать их при каталогизации. С другой – всё чаще говорят об индексировании полных текстов документов, которые в электронном (машиночитаемом) виде должны присутствовать вместе с их библиографическими описаниями. Это направление получило название «вычислительная лингвистика». При этом речь не идёт о том, что абсолютно все библиографические описания будут связаны с полными электронными текстами соответствующих документов. Важно отметить, что системы организации поиска в АБИС, а также в электронных полнотекстовых базах данных должны учитывать поведение пользователей при проведении данной процедуры.

За рубежом занимаются разработкой систем, позволяющих из документов, тесно связанных между собой по некоторым статистическим параметрам, извлекать ключевые слова и словосочетания, которые считаются релевантными в данной достаточно узкой предметной области. Эти исследования способствуют решению проблемы релевантного автоматического индексирования и реферирования документов, принадлежащих к данному корпусу документов.

Программное обеспечение, использующее элементы вычислительной лингвистики, появилось на ряде сайтов в Интернете, например, «Анализатор текста» (http://topwords.lgg.ru/atext/). Оно предназначено для анализа и составления из введённого пользователем текста списка ключевых слов, который ранжируется по весовому коэффициенту. Кроме списка ключевых слов, анализатор может произвести автоматическое реферирование текста. В результата пользователь получает список наиболее значимых предложений исходного текста.

Рассмотрим работу такого программного обеспечения с полным текстом тезисов доклада Л.Н. Пирумовой, опубликованных в материалах седьмой международной научной конференции в МГУКИ 24-25 апреля 2002 г., "Библиотечное дело-2002. Библиотечное образование и практика: поиски взаимопонимания"(М., 2002. С. 35-36).

"Проблема подготовки кадров для аналитико-синтетической обработки документов"

Проблема кадров в научных специальных библиотеках существовала всегда. Объясняется это тем, что для работы в них требуются специалисты с синтетическим образованием: в области той науки, которую обслуживает библиотека, и библиотечно-библиографическими знаниями. Особенно это относится к отделу аналитико-синтетической обработки документов (ОАСОД), где без специальных знаний предмета работать невозможно. В задачу ОАСОД ЦНСХБ Россельхозакадемии входит раскрытие содержания документа, определение места этому документу в структуре тех информационно-поисковых языков (ИПЯ), которые использует библиотека, раскрытие его содержания в краткой аннотации или реферате без искажения мыслей автора документа. Для этого необходимо не только понять, о чем идет в документе речь, но определить, к какой области знания он относится, и оценить его научную новизну и значимость. Кроме того, библиотекари работают с постоянным текущим потоком, который требует оперативной обработки. Годовой объем обрабатываемых документов в ЦНСХБ Россельхозакадемии приближается к 70 тыс. Большой входной документальный поток обуславливает большую нагрузку на специалистов АСОД. Очевидно, что без отличного знания предмета выполнить высокую дневную норму невозможно, поэтому в отделе существует практика узкой специализации: документы по растениеводству обрабатывает именно растениевод, а не ветеринар или зоотехник. Это позволяет гарантировать пользователю профессионально подобранно подобранную лексику в информационно-поисковых языках и высокую точность систематизации и индексирования.

«Поставщиком кадров» для отдела АСОД являются сельскохозяйственные и пищевые вузы. Однако знаний только в области сельского хозяйства недостаточно для работы в данном отделе. Главная задача систематизатора-индексатора – переложить содержание документа на тот ИПЯ, который используется в библиотеке. ЦНСХБ в качестве информационно-поисковых языков использует схему карточного Комплексно-системного каталога; УДК; Отраслевой рубрикатор, разработанный на основе ГРНТИ (до 5-го уровня); Отраслевой информационно-поисковый тезаурус по сельскому хозяйству и продовольствию. Таким образом, систематизатор-индексатор обязан знать эти 4 ИПЯ, чтобы уметь систематизировать или индексировать на них. Но ИПЯ – это живой организм, он должен развиваться и обогащаться. Систематизатор-индексатор должен с ними работать, развивать и поддерживат, чтобы он был в рабочем (живом) состоянии: наполнять лексикой, чтобы он отражал новейшую специальную терминологию, новейшие разработки и направления в области науки и практики АПК; совершенствовать структуру и справочно-поисковый аппарат.

Для работы с ИПЯ требуются знания библиотечно-библиографические. В МГУКИ есть курс «Аналитико-синтетическая обработка документов», рассчитанный на 142 часа и объединяющий процессы, которые прежде рассматривались в разных учебных дисциплинах: библиографическое описание, систематизация и предметизация в «Библиотечных каталогах»; координатное индексирование в «Информатике»; аннотирование и реферирование в «Библиографоведении». Библиотечные вузы всегда готовили специалистов, работающих с библиотечными классификациями – УДК и ББК. В условиях автоматизированных технологий, электронных каталогов и автоматизированного поиска особое значение приобретает лингвистическое обеспечение автоматизированных информационно-поисковых систем. ИПЯ, используемые для автоматизированного поиска, пока малоизвестны в библиотеках (рубрикаторы, тезаурусы, языки ключевых слов), поскольку раннее использовались только в информационных центрах. Сегодня в библиотеке нужны специалисты, которые могли бы не только индексировать на этих языках, но и развивать, поддерживать, и обогащать их. И здесь свою роль должны сыграть вузы, готовящие кадры для библиотек. Развитие автоматизированных технологий позволяет изменить подходы к работе с ИПЯ, к процессам систематизации и индексирования. Это в чем-то упрощает работу систематизатора-индексатора, но требует освоения этих технологий, хорошего знания ПЭВМ.

Для работы с иностранной литературой (ЦНСХБ получает около 700 названий иностранных журналов и 2,5 тыс. иностранных книг) систематизатор-индексатор должен знать иностранные языки. Он должен владеть специальной терминологией, а не общеразговорной лексикой, владеть навыками перевода специальной научной литературы. В последние годы уровень языковой подготовки студентов повысился, однако, требуется большая практика по накоплению специальной лексики, которая приходит только в процессе постоянной работы со специальной научной литературой.

Опыт работы с молодыми специалистами в отделе АСОД ЦНСХБ показал, что, имея базовое сельскохозяйственное образование, специалист может получить библиотечно-библиографические знания на курсах РГБ, что дает необходимую подготовку и второе высшее образование молодому специалисту. Иностранный язык он также может получить и получает на курсах либо в РГБ, либо на тех, которые выбирает сам. А навыки работы с ПЭВМ приобретаются в основном самостоятельно или под руководством специалистов ЦНСХБ в процессе работы, и только в редких случаях на специальных курсах. Однако выбирая работу в отделе АСОД, молодой специалист должен быть готов к тому, что ему придется заниматься самообразованием всю свою жизнь, поскольку развитие ИПЯ, совершенствование их, предполагает постоянную работу по изучению новых направлений в науке и практике и отражение их в этих ИПЯ.

Подбор кадров для отдела АСОД процесс непростой, поскольку требует не только специальных знаний, но и определенных черт характера: внимательности, скрупулезности, точности формулирования мыслей, желания постоянно совершенствоваться и пополнять свои знания. Некоторые из перечисленных черт можно привить, некоторые приобрести в процессе обучения, но некоторые определяются отношением человека к профессии".

Описываемый «Анализатор текста» практически мгновенно провёл анализ данного (загруженного в специальное окно программы) текста и сформировал список ключевых слов, который в свою очередь был ранжирован по весовому коэффициенту: работы - 1,441, знания - 1,261, только - 1, 261, АСОД - 1,261, отделе - 0,72, поисковых - 0,72, специальных - 0,72. Затем были отобраны наиболее значимые, 6 ключевых слов, и по нашему указанию "Анализатор текста" произвел автоматическое реферирование загруженного текста. В результате окончательного анализа и использования ключевых слов (поисковых, знания, АСОД, работы, области, специальных) был получен реферат следующего содержания: "Объясняется это тем, что для работы в них требуются специалисты с синтетическим образованием: в области той науки, которую обслуживает библиотека и библиотечно-библиографические знания. Для работы с ИПЯ требуются знания библиотечно-библиографические. Опыт работы с молодыми специалистами в отделе АСОД показал, что, имея базовое профильное образование, специалист может получить библиотечно-библиографические знания на курсах РГБ, что дает необходимую подготовку и второе высшее образование молодому специалисту. А навыки работы с ПЭВМ приобретаются в основном самостоятельно или под руководством специалистов библиотеки в процессе работы, и только в редких случаях на специальных курсах. Подбор кадров для отдела АСОД процесс непростой, поскольку требует не только специальных знаний, но и определенных черт характера: внимательности, скрупулезности, точности формулирования мыслей, желания постоянно совершенствоваться и пополнять свои знания. "

Из тезисов объемом около 6 тыс. символов-байт (32 предложения) получился реферат объёмом менее 1 тыс. байт (5 предложений), что соответствует примерно 15% общего объёма исследуемого текста.

Приведем ещё один текст доклада - С.Н. Криворотенко на той же конференции:

"Вузовская подготовка специалиста в области библиотечного краеведения"

Формирование краеведческого фонда – давняя традиция библиотек. Краеведческий фонд библиотек является документной базой всестороннего изучения своеобразия экономического, социального и культурного развития районов, краев, областей и предназначен для общественного пользования.

В современном отечественном библиотековедении до сих пор нет единого общепринятого обобщающего понятия для обозначения документов, связанных с краем. Терминологическая несогласованность в известной мере вносит путаницу, мешает точному восприятию смысла рассматриваемого понятия. Всякое неточное сущностное определение «краеведческого документа» неизбежно влечет за собой нарушение логической согласованности всех построенных на ней процессов формирования краеведческого фонда, оказывает решающее значение на содержание краеведческой деятельности библиотек. Исходя из неоднозначной трактовки термина «краеведческий документ», нечетко определено и понятие «краеведческий документ».

Отсутствие теоретического обоснования критериев отбора документов в краеведческий фонд, организации снабжения библиотек такого рода документами, размещения и хранения краеведческого фонда создают значительные трудности в процессе его формирования, сдерживают совершенствование тематико-типологической структуры, снижают качество обслуживают абонентов. Отсутствие должного внимания к изучению теоретических и методических проблем формирования краеведческого фонда с целью улучшения их качества в равной мере характерно для всех библиотек. Еще не найдены достаточно надежные пути координации комплектования краеведческих фондов библиотек различных систем и ведомств.

В библиотечной статистике не отражаются сведения о наличии и объеме краеведческого фонда, о выдаче краеведческих документов и т.д. Неэффективно налажена информация, как о существующих краеведческих документах, так и о предполагаемых к выпуску. В результате комплектование краеведческих фондов библиотек носит бессистемный, неплановый характер.

Эффективное решение задач формирования краеведческого фонда зависит от квалификации специалистов, их умения поставить краеведческую работу библиотек на службу социально-экономическому и культурному развитию региона, консолидировать население на общечеловеческой гуманистической основе, влиять на формирование культуры межнациональных отношений. В настоящее время студенты вузов получают лишь отдельные знания в области краеведческого библиографоведения. На наш взгляд, следует претворить в жизнь неоднократно выдвигавшиеся в специальной литературе предложения о преподавании в высших учебных заведениях библиотечного краеведения, призванного восполнить пробел в комплексном изучении проблем формирования краеведческого фонда библиотек разных систем и ведомств. Знание теории, методики и практики формирования краеведческого фонда библиотек является важнейшей задачей подготовки специалиста-краеведа.

"Анализатора текста" предложил словоформы, имеющие наиболее высокий вес в анализируемом тексте: краеведческого – 3.358, библиотек, библиотековедении – 3.358, фонда – 2.985, формирования – 2.238, краеведческих – 1.492, документов – 1.119, мере – 0.746, специалиста – 0.746, отсутствие – 0.746, документ – 0.746.

Считается, что наибольший интерес для реферирования с точки зрения строгой тематической направленности представляют словоформы (ключевые слова), имеющие вес более 2%. Однако необходимо учитывать и их смысловой значение. Из данного набора были выбраны ключевые слова: "краеведческого", "формирования", "фонда", "библиотек", "библиотековедении", а затем по ним произведено автоматическое реферирование загруженного текста.

В результате был получен реферат анализируемого текста:

"Всякое неточное сущностное определение «краеведческого документа» неизбежно влечет за собой нарушение логической согласованности всех построенных на ней процессов формирования краеведческого фонда, оказывает решающее значение на содержание краеведческой деятельности библиотек. Отсутствие теоретического обоснования критериев отбора документов в краеведческий фонд, организации снабжения библиотек такого рода документами, размещения и хранения краеведческого фонда создают значительные трудности в процессе его формирования, сдерживают совершенствование тематико-типологической структуры, снижают качество обслуживают абонентов. Отсутствие должного внимания к изучению теоретических и методических проблем формирования краеведческого фонда с целью улучшения их качества в равной мере характерно для всех библиотек. Эффективное решение задач формирования краеведческого фонда зависит от квалификации специалистов, их умения поставить краеведческую работу библиотек на службу социально-экономическому и культурному развитию региона, консолидировать население на общечеловеческой гуманистической основе, влиять на формирование культуры межнациональных отношений. На наш взгляд, следует претворить в жизнь неоднократно выдвигавшиеся в специальной литературе предложения о преподавании в высших учебных заведениях библиотечного краеведения, призванного восполнить пробел в комплексном изучении проблем формирования краеведческого фонда библиотек разных систем и ведомств".

Настоящий текст наиболее четко демонстрирует возможности создания реферата из определенным образом составленного текста статьи, тезиса и т.п.

В результате из тезисов объёмом около 3 тыс. символов-байт (16 предложения) получился реферат объемом менее 1,5 тыс. байт (5 предложений), хорошо скомпанованный (вступление, основная часть и заключение), отражающий основную сущность рассматриваемой проблемы.

Программа настроена на формирование реферата максимально из 6 предложений, отобранных из основного обрабатываемого текста. Получаемый набор из наиболее значимых предложений исходного текста требует минимального редактирования, что отражается в представленных примерах.

Таким образом, во-первых, отпадает потребность вводить ключевые слова и создавать специальные электронные рубрикаторы.

Во-вторых, автоматическое реферирование машиночитаемого текста способствует не только созданию рефератов документов, что само по себе весьма важно, особенно для научных, учебных, технических и иных профессиональных материалов.

В-третьих, эти рефераты можно включать в соответствующие поля библиографических записей в электронных базах и банках данных (в т.ч. Электронных каталогов), что будет способствовать максимальному раскрытию фондов библиотек и не перегрузит аппаратные средства большими объёмами машиночитаемых данных. Более того, поиск будет проходить быстрее, чем при извлечении необходимых сведений из полных текстов.

В-четвертых, не возникают проблемы с авторским правом, так как на серверах в открытом доступе будут не полные тексты документов, а их рефераты.

В-пятых, многих авторов заинтересует такая реклама и популяризации их работ.

В-шестых, поиск по ключевым словам, образующим такие рефераты в сочетании с включенными в тексты метаданными может значительно улучшить ситуацию с релевантностью.

В-седьмых, можно, используя эти рефераты, отказаться от описания определённого количества полей (тэгов) метаданных в гипертекстовых документах.

И, наконец, в-восьмых, такое решение снимает значительный груз забот и работ систематизаторов и библиографов при описании документов и создании соответствующих библиографических записей в электронных каталогах их библиотек.


Список использованной литературы:

    1. (8.) Ассоциативный поиск текстовой информации/ Шумский С.А., Яровой А.В., Зорин О.Л.–http://www.neurok.ru/pub/index.htm.

    2. Бобко А.В., Жарикова Л.А., Скарук Г.А. О лингвистических средствах тематического поиска в электронном каталоге ГПНТБ СО РАН// Региональные библиотечные системы: История, современное состояние, перспективы.–Новосибирск, 1995.–С.138–148.

    3. (1.) Зайцева Е.М. Лингвистическое обеспечение автоматизированных библиотечно-информационных систем: современные требования и направления развития// Научные и технические библиотеки.–2000.–№3.–С.54–57 [C.54].

    4. (2.) Там же. С.55.

    5. (7.) Земсков А.И. Деятельность ГПНТБ России в 1991–2000 гг. перспективы научно-технических библиотек на следующее десятилетие// Научные и технические библиотеки.–2001.–№10.–С.16–34 [C.31].

    6. (6.) Павлова Н.П. “LIBCOM-99” – международный форум специалистов // Научные и технические библиотеки.–2000.–№3.–С.101–137 [135].

    7. (4.) Пименов Е.Н. Индексирование информации в БД по обеспечению сохранности документов//Научные и технические библиотеки.–2001.–№11.–С.29-44.

    8. (3.) Скарук Г.А. Тематический поиск в электронном каталоге: проблемы лингвистического обеспечения// Библиотековедение.–2001.–№3.–С.48–57.

    9. Скарук Г.А., Бобров Л.К. О качестве тематического поиска в электронном каталоге// НТИ-97: Информационные ресурсы, интеграция, технологии.–М., 1997.–С.191–194.

    10. (5.) Сукиасян Э.Р. Классификационные системы в современном мире: проблемы типологии и терминологии// Научные и технические библиотеки.–2000.–№3.–С.47–54[53].

    11. Хохлов Ю.Е. Электронные библиотеки в России: нынешний этап развития //Электронные библиотеки.–2001.–Том 4.–Вып. 6.

    12. Чернозатонская Е.В. Предметный поиск и поиск по дескрипторам в интерактивном каталоге и библиографических базах данных// Библиотеки и ассоциации: новые технологии и новые формы сотрудничества.–., 1997.–Т.2.–С.621–624.

Hosted by uCoz