Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware
Обучение от Mail.Ru Group.
Онлайн-университет
для программистов с
гарантией трудоустройства.
Набор открыт!

Российские поисковые машины

Небольшая преамбула к этому документу, касающаяся самой молодой и самой перспективной, на мой взгляд, поисковой машины Яndex.

Сейчас на yandex.ru первая страница работает в режиме обработки запроса на естественном языке. Такой возможности нет у других поисковых систем (это больше, чем просто поиск по всем словам, указанным в запросе, а поиск с "пониманием"). В этом режиме вообще нет языка запросов. При этом желающие указывать в запросе логические операторы, могут пользоваться расширенным поиском со страницы http://yandex.ru/advanced.html

На странице выдачи результатов добавлена возможность <Найти похожие документы>, чего опять же нет у других российских поисковых систем.

Со 2-го февраля 1998 года в поисковой системе Яndex появилась возможность осуществлять повторный поиск только в найденных документах (нужно в случае, если найденно слишком много документов для уточнения запроса). Это некоторый эквивалент опции Refine Альтависты.

  Russian Express TELA поиск Rambler Яndex Апорт Поиск
Тип Полнотекстовая Полнотекстовая Полнотекстовая Полнотекстовая Полнотекстовая
Размер 500.000 140.094 2.500.000 2.000.000 2.600.000
Период обновления 20 дней 3-4 недели 1 раз в неделю перманентно раз в сутки (от 10 до 40 тысяч документов)
Дата обновления Нет, в проекте да Да Да, при расширенной выдаче результатов Да Да
Указанные (submittes) страницы 20 дней - 7-14 дней 1-2 дня 1-15 дней
Неуказанные (non-submitted) страницы 20 дней - до 3 месяцев в зависимости от популярности документов лимитируется скоростью обновления индекса
Глубина индексирования 5.000 документов на глубину 150 20 документов неограничена неограничена неограничена
Поддержка фреймов Да Да Да Да Да
Поддержка ImageMap Да Да Да Да Да
Индексирование защищенных паролями директорий и серверов Возможно Нет Возможно Возможно Нет
Учет популярности документа при реиндексировании Нет (в проекте - да) Нет Нет Да Нет
Использование robots.txt <META ROBOTS=... Да robots.txt - да

META - нет

Да Да Да
Влияние на алгоритм определения релевантности Нет Пока нет, в проекте - META-Keywords Нет и не будет Пока не поддерживаются Пока не поддерживаются
Title пока URL title title или URL и относительная мера релевантности title и URL title
Description META-таг Description и часть текста документа Первые строки документа Первые 512 байт документа исключая meta, javascript, images... Существуют еще две формы вывода описания - короткая и длинная Выдаются первые 1024 байт текста, мера релевантности, дата создания и объем документа Предложения, содержащие слова запроса (1, 3 или до 10)
Контроль за индексацией Нет Явно - нет, косвенно - указав в качестве критерия URL Да (См. подробнее) Пока нет Да (См. подробнее)
Имя поискового робота www.search.ru - StackRambler/1.2 YandexWeb Aport

Составил Андрей Аликберов, ЦИТ. Последние изменения 6 января 1998 года
Я благодарю за помощь Михаила В. Шишмарева (Plug Communication), Дмитрия Крюкова (Stack Ltd.), Силантия Крестовоздвиженского (Dux), Евгения Киреева (Agama), а также Елену Колмановскую и Алексея Амилющенко (CompTek)

Новости мира IT:

Архив новостей

Последние комментарии:

Релиз ядра Linux 4.14  (6)
Пятница 17.11, 16:12
Apple запустила Pay Cash (2)
Четверг 09.11, 21:15
Loading

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru,
тел. +7 985 1945361
Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодня This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2015 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...