分页: 1 / 1

网址抓取与分析

发表于 : 2009-06-21 16:26
allarem
是这样的,我想研究一下各个大学的水平和网页上错误数有什么关系
但是很无奈不少网站都只是跳转,这样就不能用网址大全这类的复制粘贴了。
网址我可以提供,但只能是类似http://www.tsinghua.edu.cn这类的,因为很多学校根本不知道跳转到哪。
哪位高手能提供一下脚本?

Re: 网址抓取与分析

发表于 : 2009-06-21 16:26
allarem
忘了说了,是提交到W3C服务器的验证那里

Re: 网址抓取与分析

发表于 : 2009-06-25 9:12
sevk
RFuzz:新的Ruby HTTP客户端

http://www.letrails.cn/archives/21

用RUBY做东西就是方便,虽然我没用过 RFuzz ,但建议你试试。

Re: 网址抓取与分析

发表于 : 2009-06-25 14:56
tusooa

代码: 全选

errs=0
for w in websites ; do
    if [ `w3m -dump http://host/link... | grep error` != "" ] ;then
        errs=$(($errs+xxx))
    fi
done
echo $errs