本人shell脚本知识正在学习。工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
1、我要抓取的网站页面如下:http://www.yizlife.com/shzn/(参看附件里的“网站页面01.png”)
2、它里面总共12页,共25个分类。我想是否可以有个脚本来抓取这些数据,以文本形式保存即可。我想要3个数据值:商家名称;商家地址,商家电话,商家类型。数据值间以TAB键间隔。
3、请大家帮帮。
求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
-
- 帖子: 13
- 注册时间: 2008-08-07 18:56
- xzap
- 帖子: 256
- 注册时间: 2006-08-24 21:25
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
这个很简单的,先用w3m 或者wget curl什么的下载页面,再grep sed awk然后保存一下就搞定了
-
- 帖子: 13
- 注册时间: 2008-08-07 18:56
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
xzap 写了:这个很简单的,先用w3m 或者wget curl什么的下载页面,再grep sed awk然后保存一下就搞定了

- bones7456
- 帖子: 8495
- 注册时间: 2006-04-12 20:05
- 来自: 杭州
- 联系:
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
代码: 全选
w3m -dump -cols 10000 http://www.yizlife.com/shzn/ | awk '$1 ~ /^第/{F=0}{if(F)print $1,$2,$3,$4}/^商家/{F=1}'
关注我的blog: ε==3
-
- 帖子: 1028
- 注册时间: 2008-11-01 21:42
- 来自: 树下板凳
-
- 帖子: 35
- 注册时间: 2009-09-11 12:31
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
呵呵,原来在window下面做过一个,原来用shell脚本这么简单……