Ubuntu中文论坛

发表于： **2010-09-14 12:47**

我想下载一个网站上的网页，使用wget -r会下载很多无用的网页下来。而我想下的那些网页（都是该网站的，没外链）地址中含随机数，使用循环去匹配的话工作量非常巨大（HTTP不支持通配符，DAMN），不知道要下到何年何月；所以我的想法是先获得这个网站上所有的链接地址，再筛选地址，然后下载。如何获取地址？

发表于： **2010-09-14 14:08**

给个网页源码，作文本处理

发表于： **2010-09-14 14:11**

分析源码，找href

发表于： **2010-09-14 14:30**

w3m -dump_source -no-cookie 这样。然后分析链接就是。

要直接爬网页，那用perl

发表于： **2010-09-14 18:54**

谢谢，成功了

Ubuntu中文论坛

如何获取网站上的链接URL

如何获取网站上的链接URL

Re: 如何获取网站上的链接URL

Re: 如何获取网站上的链接URL

Re: 如何获取网站上的链接URL

Re: 如何获取网站上的链接URL