Logo CitForum CITForum на CD Форумы Газета Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

30.07.2010

Google
WWW CITForum.ru

Новости мира IT:

Архив новостей

Стандарт исключений для роботов
Standard for robot exclusion

Martijn Koster , перевод А. Аликберова

Статус этого документа

Этот документ составлен 30 июля 1994 года по материалам обсуждений в телеконференции robots-request@nexor.co.uk (сейчас конференция перенесена на WebCrawler. Подробности см. Robots pages at WebCrawler info.webcrawler.com/mak/projects/robots/) между большинством производителей поисковых роботов и другими заинтересованными людьми.Также эта тема открыта для обсуждения в телеконференции Technical World Wide Web www-talk@info.cern.ch Сей документ основан на предыдущем рабочем проекте под таким же названием.

Этот документ не является официальным или чьим-либо корпоративным стандартом, и не гарантирует того, что все нынешние и будущие поисковые роботы будут использовать его. В соответствии с ним большинство производителей роботов предлагает возможность защитить Веб-серверы от нежелательного посещения их поисковыми роботами.

Последнюю версию этого документа можно найти по адресу info.webcrawler.com/mak/projects/robots/robots.html

Введение

Поисковые роботы (wanderers, spiders) - это программы, которые индексируют веб-страницы в сети Internet.

В 1993 и 1994 годах выяснилось, что индексирование роботами серверов порой происходит против желания владельцев этих серверов. В частности, иногда работа роботов затрудняет работу с сервером обычных пользователей, иногда одни и те же файлы индексируются несколько раз. В других случаях роботы индексируют не то, что надо, например, очень "глубокие" виртуальные директории, временную информацию или CGI-скрипты. Этот стандарт призван решить подобные проблемы.

Назначение

Для того, чтобы исключить посещение сервера или его частей роботом необходимо создать на сервере файл, содержащий информацию для управления поведением поискового робота. Этот файл должен быть доступен по протоколу HTTP по локальному URL /robots.txt. Содержание этого файла см. ниже.

Такое решение было принято для того, чтобы поисковый робот мог найти правила, описывающие требуемые от него действия, всего лишь простым запросом одного файла. Кроме того файл /robots.txt легко создать на любом из существующих Веб-серверов.

Выбор именно такого URL мотивирован несколькими критериями:

  • Имя файла должно было быть одинаковым для любой операционной системы
  • Расширение для этого файля не должно было требовать какой-либо переконфигурации сервера
  • Имя файла должно было быть легко запоминающимся и отражать его назначение
  • Вероятность совпадения с существующими файлами должна была быть минимальной

Формат

Формат и семантика файла /robots.txt следующие:

Файл должен содержать одну или несколько записей (records), разделенных одной или несколькими пустыми строками (оканчивающимися CR, CR/NL или NL). Каждая запись должна содержать строки (lines) в форме:

"<field>:<optional_space><value><optional_space>".

Поле <field> является регистронезависимым.

Комментарии могут быть включены в файл в обычной для UNIX форме: символ # означает начало комментария, конец строки - конец комментария.

Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.

User-Agent

  • значением <value> этого поля должно являться имя поискового робота, которому в этой записи устанавливаются права доступа.
  • если в записи указано более одного имени робота, то права доступа распространяются для всех указанных имен.
  • заглавные или строчные символы роли не играют
  • если в качестве значения этого поля указан символ "*", то заданные в этой записи права доступа распространяются на любых поисковых роботов, запросивших файл /robots.txt

Disallow

  • значением <value> этого поля должен являться частичный URL, который не должен индексироваться. Это может быть полный путь или частичный; любой URL, начинающийся с такого пути не должен индексироваться. Например, Disallow: /help закрывает и /help.html, и /help/index.html, тогда как
    Disallow: /help/- только /help/index.html.
  • если значение Disallow не указано, то это означает, что индексируется все дерево каталогов сервера

Любая запись (record) должна состоять хотя бы из одной строки (line) User-Agent и одной - Disallow

Если файл /robots.txt пуст, или не отвечает заданному формату и семантике, или его не существует, любой поисковый робот будет работать по своему алгоритму.

Примеры

Пример 1:

# robots.txt for http://www.site.com



        User-Agent: *



        Disallow: /cyberworld/map/ # this is an infinite virtual URL space

        Disallow: /tmp/ # these will soon disappear

В примере 1 закрывается от индексации содержимое директорий /cyberworld/map/ и /tmp/.

Пример 2:

# robots.txt for http://www.site.com



        User-Agent: *



        Disallow: /cyberworld/map/ # this is an infinite virtual URL space



# Cybermapper knows where to go



        User-Agent: cybermapper



        Disallow:

В примере 2 закрывается от индексации содержимое директории /cyberworld/map/, однако поисковому роботу cybermapper все разрешено.

Пример 3:

# robots.txt for http://www.site.com



        User-Agent: *



        Disallow: /

В примере 3 любому поисковому роботу запрещается индексировать сервер.

Примечания переводчика

В настоящее время стандарт несколько изменился, например, можно записывать в строке User-Agent несколько имен роботов, разделенных пробелами или табуляторами.

Адреса авторов

Martijn Koster, m.koster@webcrawler.com

Перевод: Андрей Аликберов, info@citmgu.ru

Последние комментарии:

Подписка на новости CITForum.ru

Новые публикации:

7 июля

  • Управление параллелизмом с низкими накладными расходами для разделенных баз данных в основной памяти

  • Рекурсивные запросы в Oracle

  • Жесткий диск WD10EARS с сектором 4 КБ. Подготовка к эксплуатации в Linux.

    Обзоры журнала Computer:

    Газета:

  • Московские пробки - исследование IBM

  • От Osborne до iPad: эволюция портативных компьютеров

    19 мая

  • Прозрачный механизм удаленного обслуживания системных вызовов

  • Система моделирования Grid: реализация и возможности применения

    Газета:

    Майкл Стоунбрейкер:

  • Ошибки в системах баз данных, согласованность "в конечном счете" и теорема CAP

  • Дискуссия по поводу "NoSQL" не имеет никакого отношения к SQL

    29 апреля

  • Материалы конференции "Корпоративные Базы Данных-2010"

  • Разные облики технологии баз данных (отчет о конференции)

    14 апреля

  • MapReduce: внутри, снаружи или сбоку от параллельных СУБД?

  • Научные вызовы технологиям СУБД

    Обзоры журнала Computer:

    31 марта

  • Рационализация согласованности в "облаках": не платите за то, что вам не требуется

  • Взаимные блокировки в Oracle

  • Архитектура среды тестирования на основе моделей, построенная на базе компонентных технологий

  • Объектное представление XML-документов

    Газета:

  • Microsoft для российских разработчиков: практика с элементами фундаментальности

    10 марта

  • HadoopDB: архитектурный гибрид технологий MapReduce и СУБД для аналитических рабочих нагрузок

  • Классификация OLAP-систем вида xOLAP

  • BGP. Три внешних канала. Балансировка исходящего и входящего трафиков

    Газета:

  • Что мы знаем об iPhone 4G?

    17 февраля

  • MapReduce и параллельные СУБД: друзья или враги?

  • Объектно-ориентированное программирование в ограничениях: новый подход на основе декларативных языков моделирования данных

  • Системологический подход к декомпозиции в объектно-ориентированном анализе и проектировании программного обеспечения

    Газета:

  • Эволюция Wine

    3 февраля

  • Дом на песке

  • Реальное переосмысление "формальных методов"

  • Интервью с Найджелом Пендзом

    Газета:

  • iPad. Первый взгляд на долгожданный планшет от Apple

  • Я не верю в iPad

    20 января

  • SQL/MapReduce: практический подход к поддержке самоописываемых, полиморфных и параллелизуемых функций, определяемых пользователями

  • Данные на лету: как технология потокового SQL помогает преодолеть кризис

    Обзоры журнала Computer:

    2 декабря

  • Сергей Кузнецов. Год эпохи перемен в технологии баз данных

    18 ноября

  • Генерация тестовых программ для подсистемы управления памятью микропроцессора

  • Сравнительный анализ современных технологий разработки тестов для моделей аппаратного обеспечения

    Все публикации >>>


  • IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

    Информация для рекламодателей PR-акции, размещение рекламы — тел. +7 495 6608306, ICQ 232284597 Пресс-релизы — pr@citforum.ru
    Послать комментарий
    Информация для авторов

    Редакция раздаёт котят!

    Rambler's Top100 TopList liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодня This Web server launched on February 24, 1997
    Copyright © 1997-2000 CIT, © 2001-2009 CIT Forum
    Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...


    Интернет магазин детских игрушек. К Вашим услугам детские игрушки для разных возрастов