Информационно-поисковые системы Internet

Назначение:

Свободный поиск информации в информационных массивах по совокупности признаков (обычно ключевых слов) - ретро-поиск

Поиск информации по заранее подготовленным запросам с определенной периодичностью - избирательное распространение информации.

Основные причины существования ИПС:

Основные способы поиска информации в Internet

Навигация

Информационный поиск

Классификации

Иерархические, фасетные классификации

Индексирование и Поиск

Модели индексирования и поиска:

Типы информационно поисковых языков:

Способы коррекции результатов поиска

Векторная модель:


Запрос к системе:

Lxq=r

где

q -вектор запроса

r - вектор отклика

Традиционный ИПЯ:

((информационная and система) or ИПС) not СУБД

Найти все документы, в которых встречается термин "информационная" и "система", либо термин "ИПС", но не встречается термин "СУБД".

Недостатки:

Плохая масштабируемость выдачи. OR приводит к слишком большому расширению списка релевантных документов, а AND резко сужает отклик.

Модификации:

Взвешенный запрос (каждому термину приписывают некоторый вес)

Языки типа "like this". Меры близости.


M - число терминов запроса;

Qj - j-ый термин запроса;

N - число WWW страниц в индексе;

Pi - i-ая страница;

Ri,q - релевантность страницы i запросу q;

Lii,k - 1 если из документа k есть ссылка на документ

i, 0 в противном случае;

Loi,k - 1 если из документа i есть ссылка на документ

k, 0 в противном случае.

Ci,j - 1 если страница i содержит термин j, 0 в противном

случае.

 (1) 

 (2)  

 (3) 

 (4) 

Структура ИПС для Internet.

(Budi Yuwono, Dik L.Lee. Search and Ranking Algorims for Locating Resources on the World Wide Web)

Программы сканирования сети

Основное назначение о области применения:

Индексы

Состав индексов различных систем

( http://www.bubl.bath.ac.uk/BUBL/IWinship.html)

 WWWWWebCraw.Lycos Harvest Galaxy Yahoo
URL

telnet

gopher

ftp

WWW


-

*


-

*


*

*

*

*


-

*


-

*

*


-

*

заголовки* *** **
текст    **  
весь текст*      
Объем   4.2Мл док. 42000 объектов 

Характеристики современных ИПС

Тестовый запрос:

"Best on the Web"

Использовались следующие механизмы улучшения запроса:

Систематип ИПЯКоррекциятест
Lycos Like this +10
Altavistaexp.bul.+ 1
Yahoo bul.-3
OpenTextbul.ord.- 5
InfoSeekbul.weight- -

Структура прикладного программного обеспечения ПК, подключенного к локальной сети TCP/IP