Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Поиск людей и организаций в Интернет: лидирующие поисковые системы и принципы их тестирования.

М. Талантов, Центр Информационных Технологий

Введение.

Поиск отдельных людей и организаций является часто возникающей для многих пользователей задачей. Специфика текущего момента состоит в том, что в Интернет сегодня можно найти информацию не только о лицах и учреждениях, в той или иной степени причастных к Сети, но и о тех, которые не имеют к ней прямого отношения. Это связано с нарастанием объемов и числа баз данных с соответствующими ресурсами, которые выкладываются на сервера свободного или ограниченного доступа и содержат сведения об огромном количестве людей, нередко даже не подозревающих о своем присутствии на них. Речь идет о широком спектре ресурсов от телефонных баз данных отдельных регионов и компаний до тех, которые содержат поименный список жителей целых государств. Все эти службы имеют один серьезный недостаток - они не представляют собой единую кем-либо администрируемую систему, а являются лишь хаотически с точки зрения стороннего наблюдателя пополняемым набором информационных узлов.

Доступ ко многим из них можно получить через глобальные поисковые системы, такие, например, как AltaVista (http://altavista.digital.com) и Yahoo (http://www.yahoo.com), активизировав соответствующую ссылку "People Search". Именно таким образом большинство пользователей и узнает о принципиальном существовании в Сети сервисов поиска людей.

Использование этих служб вполне приемлемо, однако для того, чтобы вести поисковые работы этого направления эффективно, и в случае неуспеха иметь хотя бы какие-то гарантии того, что вероятность присутствия информации о заданном объекте в Сети действительно мала, необходим более систематичный подход к этой проблеме. При этом, требуется следующее:

  1. владеть набором адресов наиболее солидных поисковых служб Сети;
  2. обладать информацией о специфике баз данных и особенностях информационно-поисковых языков соответствующих систем.
  3. обладать информацией об их рейтинге, особенно в случае рассмотрения идентичных по многим показателям служб

Получение набора интернет-адресов поисковых служб людей и организаций является достаточно легко разрешимой задачей. Однако в случае, если перечень пунктов в таком списке переваливает за сотню или даже десяток, к реальному успеху в решении поисковой задачи может привести только свободное ориентирование в возможностях этих сервисов. Главной задачей при этом становится разумно спланировать последовательность использования поисковых служб. А именно это, по сути, и является самым сложным. По нашему мнению, наиболее убедительная попытка классификации поисковых ресурсов Сети сделана в обзоре Левчика В.А. "Поиск людей и организаций в Интернет - попытка систематизации" (1996) ). Однако за прошедшие с момента написания этого обзора годы в Интернет многое изменилось. К тому же колоссальное количество ресурсов, охваченное в обзоре автором не оставило ему никакой возможности детально остановиться на специфике наиболее значительных поисковых систем.

В данной публикации мы ставим своей целью не столько предложить читателю схемы проведения поиска, они могут существенно зависеть от типа решаемой задачи, сколько обратить его внимание на возможность самостоятельной разработки таких схем и разрешения большинства проблем, связанных с работой соответствующих служб.

Итак, несмотря на существующее многообразие сервисов, базовыми сегодня можно с уверенностью считать службы, размещаемые на Web-серверах. Исходя из многих источников, в том числе по результатам исследований журнала PC Magazin (http://www.zdnet.com/pcmag) наибольшей популярностью в Сети среди пользователей Европы и Северной Америки пользуется служба поиска адресов электронной почты Four11 (http://www.four11.com или http://people.yahoo.com/)). Расположенная в портале Yahoo служба имеет характерный для каталогов этой системы простой и удобный интерфейс, который реализован в виде шаблонов простого (рис.1) и расширенного поиска (рис 2). Four11 является глобальной системой, но по понятным историческим причинам, как и в большинстве подобных служб преобладает информация о людях, проживающих в США и Канаде, затем идет Европа, затем третий мир и, увы, Россия. Чуть позже мы сделаем несколько замечаний относительно того, как такая информация проверяется с помощью тестовых запросов.

Шаблон простого поиска службы Four11 на Yahoo

Рис.1. Шаблон простого поиска службы Four11 на Yahoo.

Несмотря на простоту шаблона (рис.1) остаются некоторые неясные на первый взгляда места, а также неточности.

Во-первых, у службы два отделения: поиск адресов электронной почты (E-mail Search, вверху ) и поиск телефонов (Telephone Search, внизу).

Обсудим для примера первую возможность. Во-первых, достаточно уникальна ситуация, что система может искать адресата только по собственно имени (First Name), и указание фамилии (Last Name) не является обязательным, т.е. у этого поля нет пометки "required". Этот факт можно использовать для поиска людей с очень редкими именами. Видимо, шаблон разработчикам системы кажется настолько простым, что размещение help-ссылки о его использовании где-нибудь поблизости представляется им необязательным. Тем не менее, как вы думаете, можно ли использовать в этой службе при построении запроса маску "*", во всех ли полях это можно делать, что собственно следует при необходимости ввести в поле "Domain", можно ли попытаться разыскать в этой системе людей из Петербурга, можно ли искать адресата, если вы располагаете только частью его e-mail-адреса? Добавьте к этому свои собственные вопросы.

Сказать, что все это уже заранее нам известно, и мы можем поделиться информацией с читателем - это значит не сказать ничего, поскольку ему придется столкнуться с десятками других, часто, еще гораздо более проблемных интерфейсов. Нам бы хотелось показать, как можно получить эту информацию методом тестирования.

Тестирование системы

Вопрос: можно ли использовать в этой службе при построении запроса маску (*), что крайне удобно, если известна только часть имени или фамилии

Ответ:

  1. Вводим в поле Last Name любую распространенную фамилию, например, Smith. Кликаем на шаблоне клавишу Search. Отклик получен, система работает!
  2. Вводим в поле Last Name часть фамилии вместе с маской: Sm*. Предполагается, что не только ранее найденные Smith должны откликнуться снова, но и Smee, Smile и т.д. Отклик получен, маска работает. Ту же операцию можно проделать для поля First Name. Работает. Рассмотрение того, работает ли маска в поле Domain, ненадолго отложим.
  3. На Four11, маска, как мы убедились, применяется в виде звездочки. Следует иметь в виду, что во многих системах она также поддерживается, но не явно, а отрабатывает автоматически тогда, когда в запрос вводится только часть слова.

Вопрос: Что, собственно, следует при необходимости ввести в поле "Domain"?

Ответ:

  1. Разумеется домен, в котором, как вы предполагаете, находится почтовый сервер вашего адресата. Если адрес e-mail выглядит как tala@server.citmgu.ru, то все, что стоит после значка @ является доменами, ru - домен верхнего уровня, citmgu -домен второго уровня server - домен третьего уровня. Из приведенного в самом шаблоне примера "yahoo.com" видно, что можно использовать сразу несколько доменов разного уровня, разделенных точками. На yahoo.com большое количество бесплатных почтовых ящиков. Можно ли узнать всех адресатов, размещаемых на Yahoo, т. е. с элементом адреса @yahoo.com ?
    Вводим "yahoo.com" в поле Domain, все остальные поля оставляя пустыми. Работает, но в списке отклика появляются не только адреса типа jdalva@yahoo.com, но и ziadstar@yahoomail.com и даже asangulo@hotmail.com. Очевидно, система реагирует некорректно, и использовать такие запросы следует с осторожностью, либо произвести дополнительный анализ.
  2. Применим только что найденный нами и , естественно, зарегистрированный в службе Four11 адрес ziadstar@yahoomail.com для очередного тестового запроса, дерзко введя его в поле Domain. В отклике появляется целый список адресов, в основном с домена yahoo.com, при этом адрес ziadstar@yahoomail.com в нем также присутствуе, т.е. искать людей только по адресу e-mail без дополнительной информации система корректно не позволяет, что, в общем, неудивительно, поскольку мы ввели в поле Domain не только домен, но и имя почтового ящика.
  3. Проверим, можно ли использовать только домен верхнего уровня для локализации почтовых ящиков России. Вводим отдельно в поле Domain запросы с доменом ru, а затем отдельно с доменом su. Если известен широко распространенный домен города, например, sbp (Санкт-Петербург), то можно ввести spb или spb.ru, однако должно быть понятно, что далеко не все пользователи Санкт-Петербурга имеют почтовые ящики на серверах в этом домене.
  4. Проверим, можно ли использовать маску в поле Domain. Запрос в виде yaho*.com должен показать нам уже найденные ранее адреса Yahoo, в существовании которых в системе теперь мы уверены. Нулевой оклик, значит маска здесь не применима.

При этом, если бы шаблон требовал обязательного присутствия в запросе элементов фамилии, то для сохранения корректности запроса можно было бы использовать вместе со всеми вышеуказанными запросами и поле Last Name, куда ввести, например, "a*", предполагая, что на любом почтовом сервере с большой вероятностью найдется пользователь с фамилией, начинающейся на букву "А".

Тестирование, аналогичное тому, которое мы выполнили выше, позволяет ответить на подавляющее количество вопросов, относительно любой поисковой службы, в том числе и выявить часто неприятные для ее разработчиков "недокументированные" особенности.

В целом же, для того, чтобы получить исчерпывающее представление о работе поисковой службы, целесообразно начать с анализа не простого, а расширенного поискового шаблона (рис.2 ), на который можно выйти по ссылке Advanced из шаблона простого поиска. Не останавливаясь так же подробно на его деталях, рассмотрим только дополнительные возможности. Прежде всего, приятным сюрпризом является то,что поля State/Province и Сountry в расширенном шаблоне даны как ссылки на страницы, где подробно объяснено, что, собственно, следует в них вводить, а именно, никак не название государства или региона, а специальный аббревиатурный код, например, "ru" для Российской Федерации в поле Country, в данном случае код совпадает с именем домена. К сожалению, в других поисковых системах, эти обозначения, знакомые всем северо-американцам, особенно когда речь идет об отдельных штатах и некоторых административных территориях, подробно не расшифровываются.

Привлекательным, особенно для русскоязычного пользователя, кажется использование в системе сервиса SmartNames (см. поле на рис.2), позволяющего перебрать в запросе все допустимые формы имени на основе введенного, например, Bob = Robert, или Rick=Richard. Нужно только не забыть поставить в шаблоне галочку.

Для неискушенных пользователей следует заметить, что источником пополнения базы данных адресов электронной почты поисковых служб является прежде всего система телеконференций, затем идет персональная регистрация заинтересованных лиц по собственному желанию. При этом значительная часть информации вводится людьми самостоятельно, ее достоверность никем не контролируется. Поэтому на запрос на имя президента компании Microsoft Билла Гейтса (Bill Gates), вы сможете найти большей частью не однофамильцев этого известного в компьютерном мире человека, а шутников, склонных к мании величия.

Шаблон расширенного поиска службы Four11 на Yahoo

Рис.2. Шаблон расширенного поиска службы Four11 на Yahoo.

Ссылка "People Search" - не единственная, которая может встречаться на Web-порталах и иметь отношение к поиску людей и организаций. Это могут быть ссылки "White pages" и даже "Yellow Pages". Часто, когда речь идет о таком поиске приходится сталкиваться с понятиями так называемого white- и yellow-поиска (здесь мы отчасти следуем В. Левчику). Под white-поиском обычно понимается поиск адреса конкретного адресата по его заданному имени, т.е. человека - по фамилии, организации - по названию. При этом объект поиска заранее известен, есть уверенность в его существовании и используемое для поиска имя до определенной степени уникально, так что вероятность успеха даже на первом шаге поисковой процедуры оказывается значительной. White pages (Белые страницы) - это фактически используемые в обычных телефонных справочниках перечни людей или организаций по алфавиту, и именно такую ссылку следует разыскивать на узле.

Если поиск по Белым страницам не приводит к немедленному успеху, то возникает предположение об ошибке в исходных данных и необходимость обратиться к yellow-поиску. Yellow-поиск предполагает розыск адресатов не только и не столько по их собственному имени, сколько по другим признакам, которые также тем или иным образом классифицируются. При этом исходное имя адресата является либо неполным, либо неоднозначным и позволяет лишь отнести обозначаемого им абонента к какой-то группе, классу и т.д. На практике информационные системы Yellow Pages (Желтые страницы) фактически сразу включают в себя и White Pages - каждый адресат идентифицирован его телефоном и почтовым адресом. Кроме того, некоторые Yellow Pages позволяют искать также и по алфавитному индексу (white-поиск). С другой стороны, White pages также содержат элементы yellow-поиска, поскольку кроме задания собственного имени они обычно позволяют указать название города, штата и другие, сужающие охват поиска, данные (что необходимо, например, в случае однофамильцев). Вероятно, именно с этим и связано то, что многие телефонные справочники, представленные в Сети и выполняющие, фактически white-поиск, называют себя Yellow pages. Под желтыми страницами понимают также и обширные каталоги ресурсов Интернет, организованные по тематическому признаку.

Продолжая наш разговор о системах поиска людей и организаций, перечислим другие наиболее значительные службы Сети. Итак, начать все-таки предпочтительней со службы Four11 и затем воспользоваться ниже перечисленными: детально познакомиться с их шаблонами, особенно расширенного поиска, если таковой присутствует, учесть специфику своей задачи, при необходимости протестировать эти системы и выстроить приемлемую для себя схему их использования на будущее.

  • InfoSpace (http://www.infospace.com), см. ссылку на White Pages
  • Switchboard (http://www.switchboard.com) - поиск интегрирован с почтовыми адресами
  • WhoWhere? (http://www.whowhere.com и http://www.whowhere.lycos.com/
  • Worldpages (http://www.worldpages.com)
  • BigBook (http://www.bigbook.com)
  • BigFoot (http://www.bigfoot.com)
  • BigYellow (http://www.bigyellow.com)
  • LookSmart (http://www.looksmart.com)
  • PeopleFinder (http://www.abii.com/ lookupusa/adp/peopsrch.htm)

При поиске людей в Сети нередко приходится проявлять талант подлинного сыщика. Естественен поиск человка по его следам - по научным работам, журнальным статьям, причастности к деятельности той или иной организации. Не сразу может прийти в голову ввести в поисковый шаблон, например, в AltaVista запрос в виде фамилии. При этом, например, могут откликнуться документы с оглавлением соответствующих журналов, в которых представлен данный автор и в результате уже через несколько минут вы будете располагать адресом редакции, через которую можно попробовать получить дополнительную информацию.

При розыске организаций, название которых состоит из одного слова или укладывается в односложную аббревиатуру, разумно использовать поиск Web-страниц, в URL (сетевой адрес) которых входит данный термин, поскольку, как известно, односложное название компании, обычно присутствует в доменном имени сервера или названии каталога на нем. В этом случае нужна поисковая машина, поддерживающая поиск по URL, такая как AltaVista (http://altavista.digital.com) или Рамблер (http://rambler.ru). Если название компании двусложное целесообразно искать в поисковых системах те страницы, где это название входит в заголовок (title). В URL такое название тоже может звучать, часто как простое слияние двух слов, слияние слов со вставкой дефиса между ними или слияние с урезанием конечных частей одного из входящих в название слов или обоих. Достаточно эффективным может быть поиск в локальных базах данных отдельных газет и журналов, но обслуживание такой информацией все чаще становится платным.

В заключение, хочется отметить постоянно растущую популярность службы коммуникации пользователей в реальном времени ICQ (http://www.icq.com), поисковая система которой сегодня становится все более развитой и в русскоязычной Сети наряду с сервером Эрос (http://www.dubna.ru/eros, база данных адресов электронной почты русскоговорящих пользователей) приводит к успеху намного быстрее других сервисов.

Новости мира IT:

Архив новостей

Последние комментарии:

Loading

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru,
тел. +7 985 1945361
Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодня This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2015 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...