5. Поиск www-адресов в Интернете.
5.1.Замечания по терминологии.
- WWW-адрес, WWW-ссылка
- Для некоторого единообразия терминологии далее вместо термина
URL (Universal Resource Locator) используется термин "WWW-адрес".
При необходимости будут различаться WWW-адрес сервера и
WWW-адрес документа. В качестве синонима будет использоваться
термин "ссылка на WWW-сервер" или "ссылка на WWW-документ".
- Search engine
- Поисковый WWW-сервер, отрабатывающий запросы на поиск WWW-АДРЕСОВ
ДОКУМЕНТОВ. В WWW-технологии каждый WWW-документ при его
создании может быть снабжен набором ключевых слов по усмотрению
автора. Поисковые сервера считывают эти ключевые слова, находят
такие же в своих больших словарях и добавляют ссылку на данный
WWW-документ в список уже имеющихся ссылок для каждого такого
слова. Кроме поиска по ключевым словам, все большие поисковые
сервера имеют универсальные иерархические классификаторы, охватывающие
все отрасли знаний, сферы деятельности, области интересов,
стороны общественной жизни и т.п.
Некоторые поисковые сервера содержат внутри себя Yellow и White
Pages WWW-адресов серверов.
- Yellow Pages WWW
- Поисковый WWW-сервер, отрабатывающий запросы на поиск WWW-АДРЕСОВ
СЕРВЕРОВ (Home Page организаций). Все большие Yellow Pаges
WWW системы позволяют находить не только WWW-адрес искомой организации,
но вместе с ним показывают сразу и телефон, факс, телекс,
обычный и e-mail адрес. Иногда дается и краткое описание
профиля организации.
- Index sites
- WWW-сервера, содержащие большое количество ссылок на другие
WWW-сервера или на WWW-документы. Могут быть специализированными
или универсальными. Если предметная область сложна или универсальна,
то ссылки обычно иерархически рассклассифицированы, в
простом случае они просто упорядочены по алфавиту. От Search
engines и Yellow Pages WWW отличаются ограниченным числом ссылок
(часто это круглое число: 100 или 1000), их тщательным подбором и
отсутствием поиска по ключевым словам.
- Reference Sites
- Собирательное название для Search engines, Index sites, Yellow
Pages WWW и других похожих источников WWW-адресов.
5.2. Задачи, средства и способы поиска WWW-адресов.
Поиск WWW-адресов интересен как сам по себе (поиск WWW-документы
на заданную тему), так и как задача поиска организаций в сети. В свою
очередь, найденный WWW-сервер конкретной организации может быть интересен
как сам по себе, так и в качестве источника адресной информации
(телефоны и e-mail адреса самой организации и ее подразделений).
Типичные поисковые задачи:
- - поиск WWW-адреса сервера конкретной организации или конкретного
человека;
- - поиск WWW-адреса сервера какой-то организации по определенным условиям;
- - поиск новых WWW-адресов серверов;
- - поиск новых WWW-адресов документов.
Основные средства поиска (reference sites):
- - большие универсальные поисковые WWW-системы (search engines);
- - поисковые WWW-системы по нескольким search engines;
- - остальные универсальные и специализированные search engines и
index sites;
- - справочные системы Yellow Pages по WWW-адресам серверов;
- - MetaReference sites (каталоги search engines, index sites,
Yellow Pages WWW).
Дополнительные способы поиска:
- - персональные и тематические подборки ссылок на WWW-сервера;
- - newsletters и guides на WWW-серверах, объявления в телеконференциях,
списки рассылки
- - запрос к абонентам какой-либо массовой службы;
ВАЖНОЕ ЗАМЕЧАНИЕ.
Следует отметить, что число даже основных поисковых средств
(различных reference sites) достигает нескольких сотен, если не больше.
Кроме широкоизвестных references sites, перечисленных ниже, Ниже
перечислены либо наиболее известные из них, либо те, сообщения об
существовании или появлении которых просто привлекли внимание по той
или иной причине. Порядок их перечисления, а также само присутствие в
списке никоим образом не отражает их полезность, оценить которую
невозможно при беглом обзоре.
Ответ на вопрос - почему их столько, очевиден, на вопрос - зачем
их столько, и какими из них стоит пользоваться - пока совершенно не
ясен. Понятно только, что пользоваться ими всеми по очереди можно
только от отчаяния. Желающие обозреть все величие проблемы приглашаются
в недра иерархии Reference поискового сервера Yahoo.
5.3. Большие универсальные поисковые WWW-системы (search engines).
Поисковые WWW-сервера позволяют найти отдельные WWW-документы
(WWW-страницы), относящиеся к заданным тематикам или снабженные заданными ключевыми
словами или их комбинациями. На больших поисковых серверах имеются оба эти способа
поиска (по иерархии понятий и по ключевым словам).
Наполнение поисковых серверов происходит либо автоматически (они
непрерывно обозревают все WWW-сервера в мире), либо вручную
(с отбором материала).
Поисковый сервер обычно имеет ссылки и на остальные большие
поисковые сервера, но не передает им автоматически запрос на поиск (см.
ниже).
Наиболее известные поисковые WWW-сервера:
- http://www.yahoo.com
- Один из первых и самых известных search engine, отличающийся
развитой иерархической классификацией. Наполняется вручную, имеет
наименьшее количество ссылок по сравнению с другими search
engines (по некоторым темам примерно в 10 раз меньше
Webcrawler-а, но по другим - больше его).
Кроме WWW-адресов, содержит ссылки на ftp- и gopher- ресурсы.
Имеется иерархический классификатор и поиск по ключевым словам,
поддерживающий операции "и", "или", но только одного типа в
одном запросе. Найденные по ключевым словам ссылки снабжаются еще
и указанием их положения в иерархической классификации сервера.
Для сокращения диапазона поиска предусмотрена возможность искать
в пределах текущей подтемы классификатора. На первом уровне
иерархии имеется раздел "References", содержащий много ссылок на
разного рода reference sites.
Имеет развитой сервис новостей.
- http://www.lycos.com
- Один из самых известных и самых больших по количеству ссылок
search engine.
Имеется иерархический классификатор и поиск по ключевым словам,
поддерживающий операции "и","или", но только одного типа в одном
запросе. Операция "и" вообще не работает, операция "или" работает
неверно - возвращает количество ссылок, равное максимальному
из количеств ссылок по отдельным аргументам).
- http://www.webcrawler.com
- Относительно небольшой search engine, по-видимому, наполняется
вручную - примерно в 10 раз меньше Lycos-а.
Имеется иерархический классификатор и поиск по ключевым словам,
поддерживающий операции "и", "или", "не" и их комбинации, которые,
однако, отрабатываются не всегда верно (находятся документы,
совершенно не подходящие под условия поиска).
- http://www.inktomi.com
- Новый и, вероятно, самый большой по количеству ссылок сервер,
наполняется автоматически и хранит все найденные ссылки (примерно
в 5 раз больше lycos-а).
Имеется иерархический классификатор и поиск по ключевым словам,
поддерживающий операции "и", "или", но только одного типа в
одном запросе.
Кроме собственно поиска документов имеет Yellow Pages по разным
категориям.
- http://www.infoseek.com
- Средний по количеству ссылок search engine (по некоторым темам
чуть больше Webcrawler-а, но по некоторым - больше Lycos-а).
Имеет иерархическую классификацию и поиск по ключевым словам, не
поддерживающий операций "и", "или".
Поиск может производится: по всему WWW-пространству, лишь среди
серверов, отобранных хозяевами данного сервера (в этом случае
каждая найденная ссылка снабжена краткой аннотацией), лишь среди
серверов компаний (Yellow Pages поиск, каждая найденная ссылка
снабжена кратким описанием профиля компании), среди статей
USENET, среди e-mail адресов, среди свежих новостей (сервер имеет
дополнительный очень развитой сервис новостей). Результат поиска
дополнительно снабжается и списком подходящих тем из иерархической
классификации (общий список тем для данного запроса, а
не конкретные иерархические пути для каждой найденной ссылки,
как у Yahoo).
- http://www.altavista.com
- Большой search engine (немного меньше Lycos-а по числу ссылок).
Имеет лишь поиск по ключевым словам, поддерживающий только операцию "и".
Поиск может проводиться по всему WWW-пространству или среди
статей USENET.
- http://www.dejanews.com
- http://www.excite.com
- http://www.opentext.com
- http://www.nlightn.com
5.4. Поисковые WWW-системы по нескольким search engines.
Для проведения "тотального" поиска сразу по нескольким большим
серверам имеются специальные средства - сервера, транслирующие запрос
на поиск в формы, походящие для каждого из охватываемых поисковых
серверов.
5.5. Другие универсальные и специализированные search engines, index sites.
5.6. Системы Yellow Pages по WWW-адресам серверов.
В отличии от поисковых WWW-серверов, системы Yellow Pages с
WWW-адресами, содержат ссылки не на отдельные WWW-документы, а на
WWW-сервера различных организаций. Сами же организации подробным образом
рассортированы по роду деятельности, по выпускаемой продукции и
оказываемым услугам, по географическому признаку, просто по алфавиту
(White Pages).
- http://www.gnn.com
- Одна из первых и наиболее известных систем Yellow Pages для
WWW-адресов. Содержит ссылки на 2500 WWW-серверов. Имеет универсальную
иерархическую классификацию, а также алфавитный список
тем и алфавитный список серверов (White Pages). Каждая ссылка
снабжается комментарием примерно в один абзац.
- http://www.yellow.com
- Известная система Yellow Pages. Каждая ссылка снабжена комментарием
с названием организации, почтовым адресом, телефоном, факсом,
телексом.
- http://www.directory.net
- Поиск по паре ключевых словам, поддерживающий операции "и",
"или", либо использующий эту пару как одну строку.
- http://www.four11.com
- http://www.lookup.com
- http://www.whowhere.com
- http://sunsite.oit.unc.edu/~masha
- http://okra.ucr.edu/okra
5.7. MetaReference sites (каталоги search engines, index sites,
Yellow Pages WWW).
5.8. Персональные и тематические подборки ссылок на WWW-сервера.
Очень многие WWW-сервера, содержат подборки WWW-ссылок по
какой-либо конкретной тематике, либо по нескольким темам (обычно лежат
на персональных Home pages). Эти подборки не претендуют на полноту
(часто ограничиваются круглым числом 1000), так как являются результатом
ручного отбора, но как раз по этой причине они могут быть особенно
полезны для начального ознакомления с какой-либо темой.
Некоторые из таких подборок:
5.9. Newsletters и guides на WWW-серверах, списки рассылки,
объявления в телеконференциях.
Newsletters - электронные бюллетени, размещаемые на WWW-сервере
и информирующие о различных новостях на определенную тему. Многие
Newsletters доступны и через список рассылки (см. ниже).
Guides - учебно-справочные руководства, содержащие, обычно, в
качестве примеров, полезные подборки ссылок.
Newsletters и Guides, посвященные новостям в WWW-мире:
- http://www.elvis.ru/koi8/internet/journals
- Путеводитель The Internet Press (на русском).
- http://ourworld.compuserve.com/homepages/frankvad/Internet.htm
- Virtual Internet Guide. This Site offers Virtual Internet tours,
tutorials and guides to acquaint surfers to all avenues on the
Internet and World Wide Web.
- http://www.ibic.com/Digest
- Internet Digest: Best Sites of the Week, HTML CGI and
Programming Help, Internet News and Articles, Marketing your Site.
- http://www.hw.ac.uk/libWWW/irn/irn.html
- _INTERNET RESOURCES_ is a free WWW newsletter produced by
Heriot-Watt University Library. It informs about new and recent
Internet resources of interest to the higher education community.
Списки рассылки. Подписаться на любой список можно как
традиционным способом, послав письмо с запросом на подписку по адресу
списка, так и заполнив подписную форму на соответствующем WWW-сервере.
-
- Net-Happenings.
-
- Scout Report. Полностью содержится и в Net-Happenings.
-
- ROADMAP96 - guide to Internet resources.
-
- A ride on the TOURBUS stops at dozens of "must see" Internet
sites (FTP, Gopher and WWW) but your guides have made sure that
everything along the way is reachable by e-mail as well.
-
- WEEKLYB is a distribution list for the Weekly Bookmark - weekly
newsletter that reviews and highlights new sites on the World Wide
Web.
-
- Web4Lib is a mailing list for WWW based library managers. Issues
discussed include Web resource selection as it relates to overall
collection development, cataloging and metadata information as it
relates to Web resources. Web4Lib is not a moderated list, but only
subscribers may post messages.
-
- TUM - The Ultimate Mastermind - is a free periodical newsletter
that is published by the Let's Talk Business Network. This newsletter
provides information on all aspects of running and operating a
business with references to great resources in the marketplace both
on-line and off.
-
- THE INTERNET MALL. Shopping on the Information Highway - a list
of commercial services available via the Internet.
-
- Journal of Internet Banking and Commerce.
Объявления о вновь окрываемых www-серверах, а также другая
полезная информация помещается в USENET конференции:
comp.infosystems.www.announce
comp.infosystems.www.users
а также в RELCOM конференции:
relcom.www.support
relcom.www.users
5.10. Поиск WWW-адресов учебных заведений.
Некоторые White pages и поисковые сервера WWW-адресов университетов
и колледжей:
- http://www.mit.edu:8001/people/cdemello/univ.html
- Home pages (Worldwide).
- http://isl-garnet.uah.edu/Universities/universities.html
- Home pages (USA).
- http://www.clas.ufl.edu/CLAS/american-universities.html
- Home pages (USA).
- http://www.usmall.com/college/search/index.html
- American College Index.
- http://www.mcli.dist.maricopa.edu/cc
- Community Colleges (USA).
- http://www.collegenet.com
- CollegeNET (USA and Canada).
- http://watserv1.uwaterloo.ca/~credmond/univ.html
- Home pages (Canada).
- http://src.doc.ic.ac.uk/uk-academic.html
- UK Academic Sites (UK).
- http://www.procd.com
- Directory of Directories - содержит более 100 ссылок на home
page и на телефонные справочники колледжей и университетов по всему
миру.
Назад |
Содержание |
Вперед