2009年3月21日星期六

用wget从防火墙后检出 Googlecode

由于防火墙相关端口设置的问题,在防火墙后可能无法使用下面的标准方式检出 Googlecode:
svn checkout http://mayavi2-cn.googlecode.com/svn/trunk/ mayavi2-cn-read-only
使用 wget 可以解决此问题。
wget -nc -np -r -nH --cut-dirs=2 -R ".html" http://mayavi2-cn.googlecode.com/svn/trunk/
其中各选项的功能如下
  • -nc 防止相同链接下载多次
  • -np 防止下载指向上层目录的链接
  • -r 递进下载子目录
  • -nH 不创建主机目录
  • --cut-dirs=2 不创建从主机开始的两层目录,这里就是不创建svn/trunk/
  • -R ".html" 不下载 html 文件(如果源文件中包括网页文件,请不要使用此选项)

补充几个有用的选项:
  • --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3"
    伪装为Linux下的Firefox
  • -e robots=off 忽略网站的robot设置。如果不做此设置,遇到如下robot.txt文件,wget将停止所有下载:
    User-agent: *
    Disallow: /
  • --wait=33 --random-wait 每下载一个文件之前随机等待0到33秒

没有评论:

发表评论


相关文章

Widget by Hoctro