分页: 1 / 1
求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
发表于 : 2010-01-15 16:59
由 wanghonglou
本人shell脚本知识正在学习。工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
1、我要抓取的网站页面如下:
http://www.yizlife.com/shzn/(参看附件里的“网站页面01.png”)
2、它里面总共12页,共25个分类。我想是否可以有个脚本来抓取这些数据,以文本形式保存即可。我想要3个数据值:商家名称;商家地址,商家电话,商家类型。数据值间以TAB键间隔。
3、请大家帮帮。
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
发表于 : 2010-01-15 18:35
由 xzap
这个很简单的,先用w3m 或者wget curl什么的下载页面,再grep sed awk然后保存一下就搞定了
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
发表于 : 2010-01-17 9:07
由 wanghonglou
xzap 写了:这个很简单的,先用w3m 或者wget curl什么的下载页面,再grep sed awk然后保存一下就搞定了

谢谢。
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
发表于 : 2010-01-18 15:33
由 bones7456
代码: 全选
w3m -dump -cols 10000 http://www.yizlife.com/shzn/ | awk '$1 ~ /^第/{F=0}{if(F)print $1,$2,$3,$4}/^商家/{F=1}'
差不多了。
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
发表于 : 2010-01-18 16:31
由 t3swing
bs lz重复发帖 ,我开始还纳闷,这种东西,小朋友不来顶顶 没道理阿
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
发表于 : 2010-01-21 13:55
由 cherishing
呵呵,原来在window下面做过一个,原来用shell脚本这么简单……