Словарные информационно-поисковые системы

 

[index.htm] Введение

[to.htm] Теория ИПС

[kl.htm] Классификационные ИПС

[cl.htm] Словарные ИПС

[ko.htm] Web-кольца - предметная ИПС

[ctr.htm] Стратегия поиска

[clova.htm ] Слова далекие и близкие

[r.htm] Ранжирование результатов поиска

[at.htm] Английский тезаурус Alta Vista

[posk.htm ] ИПС Всемирной Паутины

 

Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово. Если поиск слов в таком словаре выполняется быстро, то можно отказаться от услуг разработчиков классификаторов и от услуг систематизаторов, оставаясь один на один с авторами документов.

К счастью, несмотря на обилие слов (и словоформ) в естественных языках, большинство из них употребляются нечасто, что было замечено ученым лингвистом Ципфом еще в конце 40-х годов нашего века. К тому же наиболее употребительные слова - это союзы, предлоги и артикли, т.е. слова, совершенно бесполезные при поиске информации. В результате словарь самой крупной словарной ИПС Интернет - Alta Vista - имеет объем всего лишь несколько Гбайт.

Поскольку слова в словаре упорядочены, поиск нужного слова может выполняться достаточно быстро - без последовательного просмотра. А наличие списков документов, в которых встречается искомое слово, позволяет ИПС выполнять операции с этими списками - их слияние, пересечение или вычитание (для наглядности списки документов изображены в виде овалов): Работа с словами

Вместо того, чтобы говорить "Список документов содержащих слово 'стол' или документов, содержащих слово 'стул'", употребляются сокращенные выражения, приведенные на рисунке. Дальнейшее сокращение эти выражения находят в языке запросов словарных ИПС: вместо "Найти список документов содержащих слово 'стол' или документов, содержащих слово 'стул'", большинству словарных ИПС достаточно написать что-то вроде

стол ИЛИ стул

Союз ИЛИ в запросе к словарной ИПС выступает в роли ЛОГИЧЕСКОГО ОПЕРАТОРА, связывающего множества искомых документов. Словарные ИПС используют три логических оператора: ИЛИ, И и И-НЕ ("но без"); как правило, эти операторы обозначаются одним из следующих способов:
Оператор Полное обозначение Сокращенное обозначение Обозначение при простом поиске
(кроме российской ИСП Rambler)
ИЛИ OR | пробел
И AND & +
И-НЕ AND NOT &! -

Эти операторы имеют приоритет (прежде всего выполняется И-НЕ, затем - И, и лишь потом - ИЛИ), поэтому для составления сложных запросов могут использоваться скобки (исключение составляет лишь ИПС Infoseek, которая вместо скобок применяет другие обозначения). Как правило, словарные ИПС Интернет предоставляют пользователям два интерфейса - режим "сложного запроса" (advanced search"), в котором доступны все логические операторы, и режим простого поиска, в котором, как правило, невозможно использование скобок, и, следовательно, можно использовать не все сочетания операторов.

Давайте рассмотрим гипотетический пример поиска информации о столах. С учетом падежей слова "стол" и наших знаний о логических операторах, запрос к словарной ИПС мог бы выглядеть так:

стол ИЛИ стола ИЛИ столу ИЛИ столе ИЛИ столом

Хорошо, что это только одно слово, но писать такое уже довольно тоскливо.

Западные ИПС, ориентированные на английский язык, предлагают простое решение: вместо слова можно написать его начало, заменив изменяемую часть звездочкой:

стол*.

Формально говоря, звездочка заменяет любое количество символов, поэтому говорят, что она обозначает правое усечение. Называть словом обозначение "стол*" язык не поворачивается, поэтому для таких частей логических выражений запросов используется название ТЕРМИН. Звездочка для указанной цели (правого усечения) применяется всеми известными словарными ИПС Интернет.

Однако такой запрос отыщет и документы со словами "столовая", "столешница", "столоначальник" и даже "столб". Такое явление - искусственная синонимия - может сильно мешать при поиске, однако его проявление зачастую невозможно предусмотреть заранее.

Две российские ИПС (Яндекс и Апорт) "знают" русскую грамматику и в словаре хранят только так называемую "нормальную форму" слова (для существительного - именительный падеж единственного числа). Эти системы допускают написание запроса на естественном языке, нормализуя термины запроса, тем самым существенно упрощая поиск в русском Интернет.

[Введение]   [Теория ИПС]
[Классификационные ИПС]   [Словарные ИПС]
[Web-кольца - предметная ИПС]
[Стратегия поиска]   [Слова далекие и близкие]
[Ранжирование результатов поиска]
[Английский тезаурус Alta Vista]
[ИПС Всемирной Паутины]