标签存档: URL

URL中用哈希符号(#)代替问号(?)

搜索引擎 seo url 参数你有过希望追踪用户访问的来源,但又担心在URL中使用查询参数会造成负面影响的时候吗?我了解这一点,它也曾让我寝食难安。在URL中使用跟踪参数是追踪来自其它网站链接的常用方法,但它也会带来一些棘手的问题:重复内容,并且一旦被当作付费链接的话则会降低这个外部链接的价值。我们先来讨论下第一个问题:重复内容。

继续阅读 »

URL的正则表达式

正则表达式 url由于html的在实际使用中的不规范性,导致使用dom树解析来获取html元素成功率不高。那么传统的正则表达式又能派上用场了。但是正则表达式实在是个复杂东西。特别是对于因特网上的URL来说,URL其实是个资源定位地址。现在的URL里可能会有许多奇奇怪怪的东西,甚至包含一些特殊的转码字符等。有没有一个能最广泛的匹配URL的正则表达式呢?据说一个比较完整的正则表达式是这样的:

继续阅读 »

Python中几种抓取网页中图片并保存的方法

python url imgPython访问互联网资源主要依靠三个库:urllib, urllib2, httplib。利用这些库的功能很容易能实现一些网络爬虫。配合html解析或正则表达式,就可以方便的提取或下载网络中的一些内容。如下载文件,提取邮件地址,提取链接,下载图片等。下面是常见的几种使用图片URL下载图片文件的小函数,有用文件操作的,也有直接获取并保存的,可以看出Python的语法是清晰简洁的。其中参数addr为图片url地址:

继续阅读 »