pocoyo 写了:我靠 受不了了。。。。tenzu 写了:LS的头像。。。
[二星]程序开发,不限语言,抓取网页中的图片
-
- 帖子: 817
- 注册时间: 2008-11-13 16:03
Re: [二星]程序开发,不限语言,抓取网页中的图片
-
- 帖子: 585
- 注册时间: 2010-02-25 11:19
Re: [二星]程序开发,不限语言,抓取网页中的图片
写了这些行代码后如何在ubuntu上用呢? 步骤如何? 给个框架
- 0xff
- 帖子: 415
- 注册时间: 2008-08-12 14:24
- 联系:
Re: [二星]程序开发,不限语言,抓取网页中的图片
我喜欢10楼的头像
- wzxll
- 帖子: 20
- 注册时间: 2010-06-19 20:48
-
- 帖子: 97
- 注册时间: 2007-02-09 8:33
- 来自: 深圳福田
Re: [二星]程序开发,不限语言,抓取网页中的图片
用正则表达式,应该很短吧,感觉跟以上比,php最精练了。
-
- 帖子: 6548
- 注册时间: 2008-10-31 22:12
- 系统: 践兔
- 联系:
Re: [二星]程序开发,不限语言,抓取网页中的图片
叶大,不是所有的网页的图片都是<img src=xxx>的 ,Xhtml标准要求有alt,吾喜欢<img alt="xxx" src="xxx" />这个脚本就够不到了。oneleaf 写了:ok,给个简单的py代码: 全选
import urllib,re u = 'http://forum.ubuntu.org.cn/' html = urllib.urlopen(u).read() li=re.findall('img src="*.*?"', html, re.S) for item in li: print item item = item.replace('img src="','').replace('"','') urllib.urlretrieve(('' if item.find('http://')==0 else u)+'/'+item,item.split('/')[-1])
匹配连续n多个'"',确实不合理。
吾的长,是为了速度(cURL很快)和质量。(前面的脚本统统不能搞到<img alt="xxx" src="xxx" />这样的)
代码: 全选
] ls -ld //
- trigger
- 帖子: 1604
- 注册时间: 2006-10-25 18:08
Re: [二星]程序开发,不限语言,抓取网页中的图片
代码: 全选
#!/bin/bash
(($#!=1)) && echo "need a url " && exit
curl $1 | grep -o "img src=\"[^\"]*\"" | cut -f 2 -d'"' | wget -i -
楼主真是一派胡言,真可谓:“两个黄鹂鸣翠柳,不知所云;一行白鹭上青天,不知所止“。本来不想和你辩论,今天气愤不过,和你理论一番。我国宪法写得清清楚楚:“一夜夫妻百日恩,七楼以上才有电梯”。这个想必你知道,既然知道,你就不能断章取义,就算是天气预报,它还有不准的时候呢!!!再者说了,那中国银行也不是你一家开的。人家马拉多纳都结婚了,你还拿着粮票顶什么用呢。真是滑天下之大稽。前些日子,全国人大刚刚开过会,郑重声明:“中国不搞多party制,存栏母猪给补贴”。多好的事呢,楞让你这号人给搅混了。
-
- 帖子: 2
- 注册时间: 2010-07-19 14:55
-
- 帖子: 30
- 注册时间: 2009-07-13 15:12
Re: [二星]程序开发,不限语言,抓取网页中的图片
HOHO~~ 学习 !~
- link_01
- 帖子: 1024
- 注册时间: 2008-11-05 13:24
Re: [二星]程序开发,不限语言,抓取网页中的图片
刚学shell,来个
代码: 全选
#!/bin/sh
# -- picture.sh --
BASE_URL=$1
FILE="file.html"
gethtml() {
wget -O $FILE $BASE_URL
}
if [ -z $1 ]; then
echo "Please give the url."
else
gethtml
fi
pic_url=`grep -o -P '(\/\w+)+\.(jpg|gif|png)' $FILE | \
sed 's/^\///'`
for i in $pic_url; do
last_url=${BASE_URL}/$i
echo $last_url
#wget $last_url
done
笔记
-------------------------------------
http://blog.163.com/wqt_1101
-------------------------------------
http://blog.163.com/wqt_1101
- xioepp
- 帖子: 2
- 注册时间: 2008-12-13 19:45
Re: [二星]程序开发,不限语言,抓取网页中的图片
牛人太多了!
-
- 帖子: 28
- 注册时间: 2007-05-06 10:56
Re: [二星]程序开发,不限语言,抓取网页中的图片
是re匹配的问题,你修改下匹配模板就可以了。tusooa 写了:叶大,不是所有的网页的图片都是<img src=xxx>的 ,Xhtml标准要求有alt,吾喜欢<img alt="xxx" src="xxx" />这个脚本就够不到了。oneleaf 写了:ok,给个简单的py代码: 全选
import urllib,re u = 'http://forum.ubuntu.org.cn/' html = urllib.urlopen(u).read() li=re.findall('img src="*.*?"', html, re.S) for item in li: print item item = item.replace('img src="','').replace('"','') urllib.urlretrieve(('' if item.find('http://')==0 else u)+'/'+item,item.split('/')[-1])
匹配连续n多个'"',确实不合理。
吾的长,是为了速度(cURL很快)和质量。(前面的脚本统统不能搞到<img alt="xxx" src="xxx" />这样的)
li=re.findall('img [^>]*?src="*.*?"', html, re.S)
-
- 帖子: 10
- 注册时间: 2010-12-30 14:17
Re: [二星]程序开发,不限语言,抓取网页中的图片
python里做过
- bighandsky
- 帖子: 51
- 注册时间: 2009-11-02 12:02
Re: [二星]程序开发,不限语言,抓取网页中的图片
路漫漫长其修远兮,吾将上下而求索!
随便看了几个任务,各个都头大啊
随便看了几个任务,各个都头大啊
-
- 帖子: 10
- 注册时间: 2011-02-12 22:49
Re: [二星]程序开发,不限语言,抓取网页中的图片
好高深的感觉。。