2004 г.
4.5.13. Система поиска файлов Archie
Семёнов Ю.А. (ГНЦ ИТЭФ),
book.itep.ru
ARCHIE - информационная система с наиболее эффективной системой поиска. Система разработана Аланом Эмтейджем, Питером Дойчем и Билом Хееланом из университетского вычислительного центра McGill, Канада. ARCHIE осуществляет поиск по более чем 1000 депозитариям мира допускающим анонимный доступ и содержащим более 2100000 файлов. ARCHIE работает под Windows, MS-DOS, Macintosh, Unix в рамках сети INTERNET. Рекомендуется следовать следующим правилам (в последнее время система стала менее популярна, ее функции взяли на себя поисковые сервера):
избегайте проводить поиск в рабочие часы, так как большинство ARCHIE- серверов выполняют и другие локальные функции.
запросы должны быть как можно конкретнее, это ускорит их выполнение.
интерфейс на вашей ЭВМ снизит нагрузку удаленных серверов, поэтому рекомендуется использовать локальные интерфейсы.
используйте ближайший к вам ARCHIE-сервер, это сократит нагрузку телекоммуникационных каналов и повысит надежность поиска.
Базы данных ARCHIE располагаются по адресам:
Адрес ARCHIE | Страна | Число шагов из ITEPNet *) |
archie.au (139.130.4.6) | Австралия | 23 |
archie.edvz.uni-linz.ac.at (140.78.3.8) | Австрия | |
archie.univie.ac.at (131.130.1.23) | Австрия | 17 |
archie.uqam.ca (132.208.250.10) | Канада | 21 |
archie.funet.fi (128.214.6.102) | Финляндия | 9 |
archie.th-darmstadt.de (130.83.128.118) | Германия | 13 |
archie.doc.ic.ac.uk (146.169.11.3) | Англия | 16 |
archie.ac.il (132.65.16.8) | Израиль | 19 |
archie.cs.huji.ac.il (132.65.6.15) | Израиль | |
archie.unipi.it (131.114.21.10) | Италия | 12 |
Archie.uninett.no (128.39.2.20) | Норвегия | |
archie.kuis.kyoto-u.ac.jp | Япония | 29 |
archie.wide.ad.jp (133.4.3.6) | Япония | |
archie.kr | Корея | |
archie.sogang.ac.kr (163.239.1.11) | Корея | |
archie.rediris.es (130.206.1.2) | Испания | 12 |
archie.nz (130.195.9.4) | Новая Зеландия | 25 |
archie.luth.se (130.240.18.4) | Швеция | 15 |
archie.switch.ch (130.59.1.40) | Швейцария | 15 |
archie.ncu.edu.tw (140.115.19.24) | Тайвань | |
archie.ans.net (147.225.1.10) | США | 23 |
archie.internic.net (198.49.45.10) | США | 16 |
archie.rutgers.edu (128.6.18.15) | США | |
archie.sura.net (128.167.254.179) | США | |
archie.unl.edu (129.93.1.14) | США | 20 |
*) Число шагов величина непостоянная и может изменяться со временем, сильно зависит от используемого маршрута.
Имеется возможность доступа к ARCHIE через локальный клиент-сервер, через команду telnet или с помощью электронной почты. В настоящее время доступна версия сервера 3.0. Команды, помеченные ниже (+) работают только с версией 3.0, помеченные же (*), работают только с предшествующими версиями. Для определения версии, с которой вы работаете, выдайте команду version. Локальные серверы работают быстрее и надежнее. В публичном доступе имеются версии для MS-DOS, OS/2, VMS, NeXT, Unix, X-windows и Macintosh. Клиент-серверы доступны через анонимный FTP в каталогах /pub/archie/clients ли /archie/clients, обычно это строчные варианты. Существует и графическая версия (xarchie) для X-windows. Стандартное обращение к ARCHIE имеет форму:
ARCHIE <-options> последовательность символов | образ
где options могут быть:
o | определяет имя выходного файла для запоминания результата. |
l | список найденных объектов по одной строке на документ. |
t | сортирует результат поиска по датам. |
m# | определяет максимальное число найденных документов (# от 0 до 1000), по умолчанию это число равно 95. |
H archie-server | специфицирует сервер, куда посылается запрос, в отсутствии этого параметра используется сервер по умолчанию, если такой описан. |
L | список известных серверов, включая текущий. |
Например, команда (SUN): archie -L выдаст на экран:
Known archie servers:
archie.ans.net (USA [NY])
archie.rutgers.edu (USA [NJ])
archie.sura.net (USA [MD])
archie.unl.edu (USA [NE])
archie.mcgill.ca (Canada)
archie.funet.fi (Finland/Mainland Europe)
archie.au (Australia)
archie.doc.ic.ac.uk (Great Britain/Ireland)
archie.wide.ad.jp (Japan)
archie.ncu.edu.tw (Taiwan)
* archie.funet.fi is the default Archie server.
* For the most up-to-date list, write to an Archie server and give it the command `servers'.
Следующая группа options определяет разновидность поиска.
s | объект будет выбран, если имя файла/каталога содержит заданную последовательность символов. Поиск не зависит от того, строчные или заглавные буквы использованы в эталонной последовательности. |
c | как и выше, но для поиска не безразличны строчные/заглавные буквы. |
e | последовательность символов должна точно совпадать с образцом, с учетом использования заглавных и строчных символов. Это способ поиска по умолчанию. |
r | поиск образов, которые включают в себя специальные символы, интерпретируемые до начала поиска. |
Результатом поиска может стать список FTP-адресов файлов или каталогов, соответствующих критериям отбора, указывается размер файлов, дата последней модификации и имя каталога, где этот файл лежит.
Для интерактивного попадания в ARCHIE-сервер используется команда telnet, в ответ на login следует ввести archie. Для того чтобы покинуть ARCHIE-сервер используются команды: exit, quit, bye. Кроме того, существуют следующие команды:
help ? | Выдает полный список команд |
help <имя команды> | Выдает описание команды, возврат с помощью клавиши <Enter>. |
help set variable | Выдает описание присвоения значения системной переменной. |
list <образ> | Выдает список IP-адресов баз данных и дат их последней коррекции. Параметр, если он присутствует, обеспечивает отбор адресов с учетом соответствия этому параметру. Если нет параметра, то список будет содержать около 1000 адресов. list \.de$ даст адреса в Германии. |
manpage | Отображение страницы руководства по использованию Archie |
servers | Выдает список серверов Archie |
site (*) site-name | Получение списка каталогов и субкаталогов депозитария с именем site-name. Обычно это очень длинный список. |
whatis <строка> | Осуществляет поиск описания программы для string. |
prog <строка>|<образ> find(+)<строка>|<образ> | Осуществляет поиск строки <строка> или образа <образ>, представляющий название искомого ресурса. Поиск может выполняться несколькими способами, определяемыми переменной search (команда set), которая также определяет, следует ли интерпретировать параметр как string или pattern. Результат представляет собой список FTP- адресов, размеров найденных объектов и дат последней модификации. Число объектов в списке ограничивается переменной maxhits (команда set). Результат prog может быть отсортирован в соответствии с величиной переменной sortby (команда set). По умолчанию переменные search, maxhits и sortby устанавливаются соответственно на точное соответствие string, 1000 объектов без сортировки результата |
mail <email> <,email2...> | Отсылает результат поиска по электронной почте по заданному адресу. При команде без параметров результат отсылается по адресу, заданному переменной mailo (команда set). |
show <переменная> | Отображает значение переменной с данным именем. В отсутствии параметра отображаются все переменные. |
set <переменная> <значение> | Устанавливает значение одной из переменных ARCHIE. |
Используются следующие переменные:
compress(+) метод_архивации
Задает метод архивации (none или compress), используется до отправки почты командой mail. По умолчанию none.
encode(+) метод_кодирования
Определяет метод кодирования (none или uuencode), используется при отправке по почте. Эта переменная игнорируется, если компрессии нет. По умолчанию none.
mailo email <,email2...>
Определяет e-mail адрес, куда будет послан результат, при выдаче команды без аргумента.
maxhits number
Определяет максимальное число отобранных объектов командой prog (0-1000). По умолчанию эта переменная равна 1000.
search search-value
Определяет вид проводимого поиска: prog string | prog string | pattern. search-values равны:
sub | Частичное совпадение и независимость от заглавная/сточная. |
subcase | То же, но не безразлично заглавный/сточный символы. |
exact | Точное соответствие образцу. |
regex pattern | Интерпретируется перед началом поиска. |
sortby sort-value | Описывает то, как сортировать результаты поиска по команде prog. Значения sort-values (параметр сортировки): |
hostname | Сортировка по FTP-адресам в лексическом порядке |
time | Сортировка по дате модификации, более поздние сначала. |
filename | Сортировка по именам файлов или каталогов в лексическом порядке |
none | Никакой сортировки |
size | Сортировка документов по размеру |
term terminal-type <number-of-rows<number-of-columns>>
Сообщает ARCHIE, какой терминал используется.
Доступ через электронную почту
Пользователи могут получить доступ к ARCHIE через электронную почту, послав запрос по адресу archie@archie.ac.il. Команды посылаются в теле сообщения. Командные строки начинаются всегда с первой колонки. Поле subject рассматривается как строка самого сообщения. При этом допустимы следующие команды:
help | Присылает файл HELP, при этом другие команды сообщения игнорируются. |
path return-address set mailto(+) return-address | Определяет обратный адрес, отличный от того, что записан в заголовке |
list pattern <pattern2...> | Выдает список адресов, где есть данные, соответствующие pattern, наиболее свежие по дате |
site(*) site-name | Выдает список каталогов и субкаталогов по адресу site-name |
whatis string <string2...> | Ищется в базе данных описание программных продуктов, где содержится string. Прописные или строчные буквы роли не играет |
prog pattern <pattern2...> find(+) pattern <pattern2> | Поиск всех упоминаний ресурсов с именем pattern. Если несколько pattern помещено в одной строке, результат поиска будет прислан в одном сообщении. Если несколько prog помещено в строке, результат присылается в нескольких сообщениях, по одному на каждый prog. Результат представляет собой список адресов для FTP. Если pattern содержит пробелы, он должен быть заключен в кавычки. Поиск не зависит от того, заглавные или строчные буквы использованы в запросе. |
compress(*) | Полученный результат будет архивирован и перекодирован с помощью uuencode. В результате будет получен файл с расширением .Z. Сначала по получении сообщения следует обработать с помощью uudecode, а после этого следует выполнить программу uncompress |
set compress(+) compress-method | Специфицирует метод архивирования (none или compress) перед отправкой по почте. По умолчанию none |
set encode(+) encode-method | Специфицирует метод кодирования (none или uuencode) перед отправкой по почте. По умолчанию none. |
quit | Ничего не производит, полезна в случае автоматического добавления подписи в конце сообщения. |
Description of pattern pattern | Описывает последовательность символов, включая специальные символы. Символ перестает быть специальным, если перед ним стоит "\". |
К числу специальных символов относится:
. (точка) | Заменяет любые другие символы (wildcard). |
^ | Появляется в начале pattern. При этом будет искаться будет последовательность, следующая за "^". Например: "^efgh" узнает "efgh" или "efghij" но не "abcdefgh". |
$ | Появляется в конце pattern. Так, например: "efghi$" узнает "efghi" или "abcdefghi" но не узнает "efghijkl". |
Если вы послали команду list \.de$ по электронной почте или с помощью Telnet, вы получите следующий отклик:
alice.fmi.uni-passau.de | 132.231.1.180 | 12:31 | 8 Aug 1993 |
askhp.ask.uni-karlsruhe.de | 129.13.200.33 | 12:25 | 8 Aug 1993 |
athene.uni-paderborn.de | 131.234.2.32 | 15:21 | 6 Aug 1993 |
bseis.eis.cs.tu-bs.de | 134.169.33.1 | 00:18 | 31 Jul 1993 |
clio.rz.uni-duesseldorf.de | 134.99.128.3 | 12:10 | 8 Aug 1993 |
cns.wtza-berlin.de | 141.16.244.4 | 16:08 | 31 Jul 1993 |
и т.д.
Если вы пошлете команду whatis compression по почте или посредством Telnet, вы получите следующий результат:
RFC 468 | Braden, R.T. FTP data compression 1973 March 8; 5p. |
arc | PC compression program |
deltac | Image compression using delta modulation |
spl | Splay tree compression routines |
squeeze | A file compression program |
uncrunch | Uncompression program |
unsqueeze | Uncompression programs (Пример взят из [1]) |
В ответ на команду find AMPS, вы получите:
Host goliat.eik.bme.hu | (152.66.115.2) |
Last updated 00:02 3 Jan 1995
Location: /pub/win3/util
FILE -r--r--r-- 145312 bytes 11:18 22 Dec 1994 amps13.zip
Host nic.switch.ch | (130.59.1.40) |
Last updated 01:17 11 Dec 1994
Location: /mirror/novell/netwire/novuser/01
FILE -rw-rw-r-- 177681 bytes 02:14 1 Nov 1994 amps15.zip
Host faui43.informatik.uni.erlangen.de | (131.188.1.43) |
Last updated 01:31 11 Dec 1994
Location:
/mounts/epix/public/pub/pc/windows/cica_mirror/util
FILE -r--r--r-- 145312 bytes 00:00 2 Jun 1994 amps13.zip
Host ftp.luth.se | (130.240.16.39) |
Last updated 17:53 13 Dec 1994
Location: /pub/msdos/.1/.util
FILE -r--r--r-- 145312 bytes 01:00 1 Jun 1994 amps13.zip
Host ftp.cyf | kr.edu.pl (149.156.1.8) |
Last updated 17:50 3 Jan 1995
Location: /pub/mirror/ami/chipset_guides
FILE -rw-r--r-- 111858 bytes 00:00 4 Apr 1994 scampsx.z06
FILE -rw-r--r-- 46677 bytes 00:00 4 Apr 1994 scampsx.z07
Это лишь фрагмент выдачи реально она много длиннее. Видно, что один и тот же документ найден в нескольких депозитариях. Если у вас есть вопросы об ARCHIE, пишите Archie Group, Bunyip Information Systems Inc. по адресу info@bunyip.com. В случае обнаружения ошибок, а также с комментариями следует обращаться по адресу archie-admin@bunyip.com. По вопросам, связанным с конкретными серверами можно обратиться по адресу archie-admin@address.of.archie.server, например, archie-admin@archie.ac.il. Список адресов для рассылки информации находится по адресу: archie-people@bunyip.com; для включения в подписной лист можно послать запрос по адресу: archie-people-request@bunyip.com.
Назад: 4.5.12. WAIS
Оглавление: Телекоммуникационные технологии
Вперёд: 4.5.14. Современные поисковые системы