Информационно-поисковые системы Internet
Назначение:
Свободный поиск информации в информационных массивах
по совокупности признаков (обычно ключевых слов) - ретро-поиск
Поиск информации по заранее подготовленным запросам
с определенной периодичностью - избирательное распространение
информации.
Основные причины существования ИПС:
- большой объем информации
- ее недостаточная или чересчур подробная структуризация
- широкий тематический профиль информационных массивов
Основные способы поиска информации в Internet
Навигация
- гипертекстовые ссылки (World Wide Web)
- строки-селекторы (Gopher)
Информационный поиск
- archie
- veronica
- wais
- Information Retrieval Systems
Классификации
Иерархические,
фасетные классификации
Индексирование и Поиск
Модели индексирования и поиска:
- векторная модель информационного потока
- нечеткие множества
- вероятностная модель
Типы информационно поисковых языков:
- традиционные ИПЯ
- взвешивание терминов
- ИПЯ типа "Like this"
Способы коррекции результатов поиска
- фильтрация
- коррекция по релевантности
- кластеризация
Векторная модель:
Запрос к системе:
Lxq=r
где
q -вектор запроса
r - вектор отклика
Традиционный ИПЯ:
((информационная and система) or ИПС) not СУБД
Найти все документы, в которых встречается термин
"информационная" и "система", либо термин "ИПС", но не встречается
термин "СУБД".
Недостатки:
Плохая масштабируемость выдачи. OR приводит к слишком
большому расширению списка релевантных документов, а AND резко
сужает отклик.
Модификации:
Взвешенный запрос (каждому термину приписывают некоторый
вес)
Языки типа "like this". Меры близости.
M - число терминов запроса;
Qj - j-ый термин запроса;
N - число WWW страниц в индексе;
Pi - i-ая страница;
Ri,q - релевантность страницы i запросу q;
Lii,k - 1 если из документа k есть ссылка на документ
i, 0 в противном случае;
Loi,k - 1 если из документа i есть ссылка на документ
k, 0 в противном случае.
Ci,j - 1 если страница i содержит термин j, 0 в противном
случае.
(1)
(2)
(3)
(4)
Структура ИПС для Internet.
(Budi Yuwono, Dik L.Lee. Search and Ranking
Algorims for Locating Resources on the World Wide Web)
Программы сканирования сети
Основное назначение о области применения:
- ведение баз данных World Wide Web
- создание "зеркал"
- поиск информационных ресурсов
- комбинированное использование
Индексы
Состав индексов различных систем
( http://www.bubl.bath.ac.uk/BUBL/IWinship.html)
| WWWW | WebCraw. | Lycos |
Harvest |
Galaxy |
Yahoo |
URL
telnet
gopher
ftp
WWW |
-
* |
-
* |
*
*
*
* |
-
* |
-
*
* |
-
* |
заголовки | * |
* | * | * |
* | * |
текст |
| | | * | * |
|
весь текст | * |
| | | | |
Объем |
| | 4.2Мл док. | | 42000 объектов | |
Характеристики современных ИПС
Тестовый запрос:
"Best on the Web"
Использовались следующие механизмы улучшения запроса:
- простой запрос
- сложный запрос
- нормализация лексики
- ранжирование
- коррекция по релевантности
Система | тип ИПЯ | Коррекция | тест |
Lycos |
Like this |
+ | 10 |
Altavista | exp.bul. | + |
1 |
Yahoo |
bul. | - | 3 |
OpenText | bul.ord. | - |
5 |
InfoSeek | bul.weight | - |
- |
Структура прикладного программного обеспечения ПК, подключенного к локальной сети TCP/IP