wget 下载网站

我也是个UFO迷。我想地球上应该很多人是UFO迷吧。
我觉得地球是宇宙中极小的一个“点”而已。。所以没有其他生物基本上不太成立。凭什么只有地球可以生存?
其他的生物也许需要的不是氧气,而是其他呢?这个论点一会在论证。
这个网站不错
http://www.ufoevidence.org/

如何把网站整个下载下来呢?

wget -r -p -k -np http://www.ufoevidence.org/

下面是转贴整理,我就不用自己写了,搜索到的网站
http://www.shineblog.com/user1/16922/archives/2006/447977.shtml
http://zeal.haliluya.org/blog/2006/06/28/a-small-wget-tip/
http://post.baidu.com/f?kz=170129964

这其中,
“-r“就是recursive的意思,当前目录下的所有子目录(及其子目录)都会被访问到。“-p”使得html页链接的图片,声音,
stylesheet等相关文件都被下载,以保证该html页的正常显示。“-np”的意思是“no
parent”,-np这个参数保证不会去下载起始目录的上层目录的文件, 表示不下载别的站点的链接.。“-k”等价于“–convert-links”,表示将下载的网页里的链接修改为本地链, 保证了下载后的文件之间的链接可以在本地正
常工作。看到一个例子说,你可以简单的使用“wget –mirror
http://www.yoursite.com/”来mirror.(-c表示断点续传, -t 100表示重试100次,-t 0表示无穷次重试)

如果要下载的网站,是用.htaccess进行访问限制的。就需要用户和密码。这时候要用:

wget -r -p -np -k –user=yourusername –password=yourpassword http://www.example.com/subsite

如果密码种有特殊字符,可能需要用“”来转义。

如果下载的网站放了”robot.txt“来限制某些部分的访问。就需要wget来ignore这个文件。只需要在你的~/.wgetrc里面加入一行

robots = off

就行了。

另外可以将要下载的url写到一个文件中,每个url一行,使用这样的命令 wget -i download.txt.

–reject=avi,rmvb 表示不下载avi,rmvb的文件,–accept=jpg,jpeg,表示只下载jpg,jpeg的文件.

可以在用户目录下建立一个.wgetrc的文件(windows里面好像不能直接建立这样的文件,windows会认为没有文件名--),里面写上 http-proxy = 123.456.78.9:80,然后在加上参数 –proxy=on,如果需要密码,再加上下面的参数 –proxy-user=username, –proxy-passwd=password

———
olo按:wget虽然是单程下载,但是功能很强大

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s