[二星]程序开发，不限语言，抓取网页中的图片

onelynx · #16

pocoyo 写了：
tenzu 写了：LS的头像。。。
我靠受不了了。。。。

hacker85 · #17

写了这些行代码后如何在ubuntu上用呢？步骤如何？给个框架

0xff · #18

我喜欢10楼的头像

wzxll · #19

oneleaf

经典，学习了。

arserangel · #20

用正则表达式，应该很短吧，感觉跟以上比，php最精练了。

tusooa · #21

oneleaf 写了：ok，给个简单的py

代码：全选

import urllib,re
u = 'http://forum.ubuntu.org.cn/'
html = urllib.urlopen(u).read()
li=re.findall('img src="*.*?"', html, re.S)
for item in li:
    print item
    item = item.replace('img src="','').replace('"','')
    urllib.urlretrieve(('' if item.find('http://')==0 else u)+'/'+item,item.split('/')[-1])

叶大，不是所有的网页的图片都是<img src=xxx>的

，Xhtml标准要求有alt，吾喜欢<img alt="xxx" src="xxx" />这个脚本就够不到了。
匹配连续n多个'"'，确实不合理。

吾的长，是为了速度(cURL很快)和质量。(前面的脚本统统不能搞到<img alt="xxx" src="xxx" />这样的)

trigger · #22

代码：全选

#!/bin/bash
(($#!=1)) && echo "need a url " && exit
curl $1 | grep -o "img src=\"[^\"]*\"" | cut -f 2 -d'"' | wget -i -

高飞想念葫芦娃 · #23

KIS · #24

HOHO~~ 学习 !~

link_01 · #25

刚学shell，来个

代码：全选

#!/bin/sh
# -- picture.sh --

BASE_URL=$1
FILE="file.html"
gethtml() {
   wget -O $FILE $BASE_URL
}

if [ -z $1 ]; then
    echo "Please give the url."
else
    gethtml
fi

pic_url=`grep -o -P '(\/\w+)+\.(jpg|gif|png)' $FILE | \
    sed 's/^\///'`
for i in $pic_url; do
    last_url=${BASE_URL}/$i
    echo $last_url
    #wget $last_url
done

xioepp · #26

牛人太多了！

wizardyhnr · #27

tusooa 写了：
oneleaf 写了：ok，给个简单的py
代码：全选
import urllib,re
u = 'http://forum.ubuntu.org.cn/'
html = urllib.urlopen(u).read()
li=re.findall('img src="*.*?"', html, re.S)
for item in li:
    print item
    item = item.replace('img src="','').replace('"','')
    urllib.urlretrieve(('' if item.find('http://')==0 else u)+'/'+item,item.split('/')[-1])
叶大，不是所有的网页的图片都是<img src=xxx>的，Xhtml标准要求有alt，吾喜欢<img alt="xxx" src="xxx" />这个脚本就够不到了。
匹配连续n多个'"'，确实不合理。

吾的长，是为了速度(cURL很快)和质量。(前面的脚本统统不能搞到<img alt="xxx" src="xxx" />这样的)

是re匹配的问题，你修改下匹配模板就可以了。
li=re.findall('img [^>]*?src="*.*?"', html, re.S)

flykite1988 · #28

python里做过

bighandsky · #29

路漫漫长其修远兮，吾将上下而求索！

随便看了几个任务，各个都头大啊

Only_Jiao · #30

好高深的感觉。。

[二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片

Re: [二星]程序开发，不限语言，抓取网页中的图片