HTTrack: скачивание и зеркалирование сайтов

Автор: Жао Дифей (Zhao Difei)
Перевод: Алексей Бешенов

2008-01-16

Оригинал: «HTTrack: Website crawler / copier», 16 декабря 2007 г.

HTTrack  — мощное средство, позволяющее загружать содержимое сайтов на локальную машину или создавать зеркала. HTTrack обходит ссылки указанного ресурса, рекурсивно загружает страницы и меняет ссылки в гипертексте так, чтобы все можно было просматривать со своего компьютера. Функция рекурсивного зеркалирования, напротив, предполагает, что ссылки не меняются и продолжают указывать на удаленные ресурсы. Синтаксис команды httrack очень прост:

$ httrack –help
HTTrack version 3.41-3 (compiled Jul  3 2007)
usage: httrack  [-option] [+] [-]
[+] [-]
Вот пример загрузки копии debian.org в директорию «httrack»:
$ mkdir httrack
$ cd httrack/
$ httrack debian.org
Mirror launched on Sun, 30 Sep 2007 18:05:40
by HTTrack Website Copier/3.41-3+libhtsjava.so.2 [XR&CO’2007]
mirroring debian.org with the wizard help.
* debian.org/intro/about.ro.html (17854 bytes) – OK

HTTrack может также использовать фильтры: шаблон с суффиксом + обозначает загрузку, а шаблон с суффиксом - — пропуск отдельных страниц. Например, можно загрузить документы Slashdot, за исключением тех, что относятся к субдомену apple.slashdot.org:
$ httrack slashdot.org -apple.slashdot.org*
Вот другой пример — пропуск документов типа image/jpeg:
$ httrack slashdot.org -mime:image/jpeg 
Для загрузки содержимого двух сайтов, разделяющих общие ссылки, запустите
$ httrack www.microsoft.com www.evil.com 
Есть еще много продвинутых возможностей, заинтересованные читатели могут обратиться к руководству. HTTrack есть в Debian, от Sarge до Sid, и в Ubuntu, от Dapper до Gutsy.