网址抓取与分析

allarem · #1

是这样的，我想研究一下各个大学的水平和网页上错误数有什么关系
但是很无奈不少网站都只是跳转，这样就不能用网址大全这类的复制粘贴了。
网址我可以提供，但只能是类似http://www.tsinghua.edu.cn这类的，因为很多学校根本不知道跳转到哪。
哪位高手能提供一下脚本？

allarem · #2

忘了说了，是提交到W3C服务器的验证那里

sevk · #3

RFuzz:新的Ruby HTTP客户端

http://www.letrails.cn/archives/21

用RUBY做东西就是方便，虽然我没用过 RFuzz ，但建议你试试。

tusooa · #4

代码：全选

errs=0
for w in websites ; do
    if [ `w3m -dump http://host/link... | grep error` != "" ] ;then
        errs=$(($errs+xxx))
    fi
done
echo $errs