标签存档: PhantomJS

Python中安装使用Selenium及PhantomJS

selenium phantomjs pythonSelenium是一种流行的Web测试工具,但也常用于数据采集方面。Selenium常用的是WebDriver,顾名思义就是应用与Web浏览器间的一个接口。虽然Selenium可以使用许多浏览器,包括移动平台上的一些产品,但由于要启动浏览器进程,所以效率是十分低下的。相比起来,一些无界面的浏览器由于不需页面显示渲染,速度会更快一些。今天就尝试下在Python中安装selenium模块。PhantomJS由于先前已经安装,就可以直接使用了。

继续阅读 »

CasperJS中querySelector使用的一些问题

casperjs phantomjs queryselectorCasperJS是PhantomJS(一个Webkit内核的无界面浏览器)和SlimerJS(对应于Gecko内核)的一个封装,用于简化一些操作和功能调用。虽然CasperJS主要应用场景是Web测试,但它也常常用于数据抓取。CasperJS有助于解决网页上JavaScript渲染的问题。因为JavaScript和Ajax常常用来改变HTML的DOM结构,导致实际页面内容和从Web服务器直接抓取到的HTML文件并不一致。这是很多HTML操作库难于彻底解决的问题。

继续阅读 »