Python中几种抓取网页中图片并保存的方法

苏葳 • 2013年7月6日 15:48 • 编程 • 阅读 101

Python访问互联网资源主要依靠三个库：urllib, urllib2, httplib。利用这些库的功能很容易能实现一些网络爬虫。配合html解析或正则表达式，就可以方便的提取或下载网络中的一些内容。如下载文件，提取邮件地址，提取链接，下载图片等。下面是常见的几种使用图片URL下载图片文件的小函数，有用文件操作的，也有直接获取并保存的，可以看出Python的语法是清晰简洁的。其中参数addr为图片url地址：

第一种：

def getImage(addr):
    u = urllib.urlopen(addr)
    data = u.read()
    splitPath = addr.split('/')
    fName = splitPath.pop()
    print fName
    f = open(fName, 'wb')
    f.write(data)
    f.close()

第二种：

def getImage2(addr):
	try:
		u = urllib2.urlopen(addr)
		data = u.read()
		splitPath = addr.split('/')
		fName = splitPath.pop()
		print fName
		urllib.urlretrieve(addr, fName)
	except Exception,e:
		print "[Error]Cant't download: %s:%s" %(fName,e)

使用urllib.urlretrieve(addr, fName) 直接用urllib.urlretrieve获取并保存，fName为保存的文件名，当然可加路径。

def getImage2(addr):
	try:
		splitPath = addr.split('/')
		fName = splitPath.pop()
		print fName
		open(fName, "wb").write(urllib2.urlopen(addr).read())
	except Exception,e:
		print "[Error]Cant't download: %s:%s" %(fName,e)

使用urllib2.urlopen，简写方式，其实与第一种一样。

”’python中用作注释，注意也要符合缩进规则。

原创文章，作者：苏葳，如需转载，请注明出处：https://www.swmemo.com/495.html

赞 (0)

0

C#中Hashtable的顺序遍历及列表控件的insert方法

« 上一篇 2013年7月5日 10:25

URL的正则表达式

下一篇 » 2013年7月9日 17:30

Python文档中关于引用计数的一段翻译

在C或C++之类的语言中，程序员需负责在堆上动态分配和回收内存。在C中，通过使用malloc()和free()函数完成，在C++中，操作符new和delete以本质相同的方式运行，…

编程 2012年10月20日 0 0 0
Android上的脚本语言解释环境

Android算是Linux的一个派生版本，其上能否运行Linux上各种各样的脚本语言呢？搜索了一下网络，居然发现了ASE，即安卓脚本语言环境，其上可配置perl/jruby/be…

开发工具 2010年10月6日 0 0 0
获取虚拟空间的系统版本和Python版本

vps虽好，但配置相对较低，成本相对较高。对于一个无限流量，无限空间的虚拟主机，其实可以更充分的利用资源潜能。比如有无可能在上面放置运行一个抓取图片或网页的爬虫？或者做网页代理？许…

编程 2014年12月25日 0 0 2
Python中的字典

Python的字典类型不是序列，而是一种映射，所以没有可靠的从左到右的次序。字典是Python核心对象中唯一的一种映射类型，它和列表一样，具有可变性：值可变，也可以随需求增大减小。…

编程 2012年10月27日 0 0 0
Python中字典键值的大小写无关查找的方法

通常，忽略字典中键的大小写不是个好主意，因为dict类型的键是大小写敏感的，若忽略则可能造成两键的重复，但某些情况下，比如urllib2.openurl返回的zzz.headers…

编程 2013年7月16日 0 1 0
php和python求阶乘

Python和php比较，php更象一种专用Web开发语言。而Python的应用面更广泛一些，更偏向于一种通用语言。虽然从外表上看起来Python比php更象是脚本语言，拥有逐条解…

编程 2014年4月29日 0 0 0
Python的struct模块和big-endian顺序

一个16位长的整数，在内存中的存放次序，可以按内存地址从低往高，存放时按先存前8位还是后8位，来区分为liitle-endian和big-endian两种。简单的理解，big-en…

编程 2012年10月31日 0 0 0
Linux下编译安装Python 2.7.3的问题

下载了linux版的python 2.7.3的安装包，解压缩，./configure make和make install，然后python顺利升级至2.7.3，本以为没什么问题。但…

开发工具 2012年8月16日 0 0 0
用Python的正则去除xml文件中的注释

手头有一个xml配置文件，里面加了许多大块的注释，严重影响阅读。现在考虑一下，如何用Python中的正则表达式去除这个xml文件中的注释，也就是形如<!– 注释内…

编程 2014年4月18日 0 0 0
Python的logging模块

Python的logging模块是个通用的日志模块。这个模块与log4j的机制非常相似。能够提供不同的日志级别，并可以采用不同的方式记录日志，比如文件，HTTP GET/POST，…

编程 2011年9月5日 0 0 0

发表评论取消回复