Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информационно-поисковые системы Internet

Назначение:

Свободный поиск информации в информационных массивах по совокупности признаков (обычно ключевых слов) - ретро-поиск

Поиск информации по заранее подготовленным запросам с определенной периодичностью - избирательное распространение информации.

Основные причины существования ИПС:

  • большой объем информации
  • ее недостаточная или чересчур подробная структуризация
  • широкий тематический профиль информационных массивов

Основные способы поиска информации в Internet

Навигация

  • гипертекстовые ссылки (World Wide Web)
  • строки-селекторы (Gopher)

Информационный поиск

  • archie
  • veronica
  • wais
  • Information Retrieval Systems

Классификации

Иерархические, фасетные классификации

Индексирование и Поиск

Модели индексирования и поиска:

  • векторная модель информационного потока
  • нечеткие множества
  • вероятностная модель

Типы информационно поисковых языков:

  • традиционные ИПЯ
  • взвешивание терминов
  • ИПЯ типа "Like this"

Способы коррекции результатов поиска

  • фильтрация
  • коррекция по релевантности
  • кластеризация

Векторная модель:


Запрос к системе:

Lxq=r

где

q -вектор запроса

r - вектор отклика

Традиционный ИПЯ:

((информационная and система) or ИПС) not СУБД

Найти все документы, в которых встречается термин "информационная" и "система", либо термин "ИПС", но не встречается термин "СУБД".

Недостатки:

Плохая масштабируемость выдачи. OR приводит к слишком большому расширению списка релевантных документов, а AND резко сужает отклик.

Модификации:

Взвешенный запрос (каждому термину приписывают некоторый вес)

Языки типа "like this". Меры близости.


M - число терминов запроса;

Qj - j-ый термин запроса;

N - число WWW страниц в индексе;

Pi - i-ая страница;

Ri,q - релевантность страницы i запросу q;

Lii,k - 1 если из документа k есть ссылка на документ

i, 0 в противном случае;

Loi,k - 1 если из документа i есть ссылка на документ

k, 0 в противном случае.

Ci,j - 1 если страница i содержит термин j, 0 в противном

случае.

 (1) 

 (2)  

 (3) 

 (4) 

Структура ИПС для Internet.

(Budi Yuwono, Dik L.Lee. Search and Ranking Algorims for Locating Resources on the World Wide Web)

Программы сканирования сети

Основное назначение о области применения:

  • ведение баз данных World Wide Web
  • создание "зеркал"
  • поиск информационных ресурсов
  • комбинированное использование

Индексы

Состав индексов различных систем

( http://www.bubl.bath.ac.uk/BUBL/IWinship.html)

 WWWWWebCraw.Lycos Harvest Galaxy Yahoo
URL

telnet

gopher

ftp

WWW


-

*


-

*


*

*

*

*


-

*


-

*

*


-

*

заголовки* *** **
текст    **  
весь текст*      
Объем   4.2Мл док. 42000 объектов 

Характеристики современных ИПС

Тестовый запрос:

"Best on the Web"

Использовались следующие механизмы улучшения запроса:

  • простой запрос
  • сложный запрос
  • нормализация лексики
  • ранжирование
  • коррекция по релевантности
Систематип ИПЯКоррекциятест
Lycos Like this +10
Altavistaexp.bul.+ 1
Yahoo bul.-3
OpenTextbul.ord.- 5
InfoSeekbul.weight- -

Структура прикладного программного обеспечения ПК, подключенного к локальной сети TCP/IP

Новости мира IT:

Архив новостей

Последние комментарии:

Loading

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru,
тел. +7 985 1945361
Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодня This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2015 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...