前言
当想用 nodejs 抓取一些网页 , 我第一反应想到的就是使用 http 模块 , 比如抓取百度首页:
var http = require('http'); var req = http.request('http://www.baidu.com/', function (res) { res.setEncoding('utf8'); res.on('data', function (chunk) { //响应内容 console.log(chunk) }); }); req.end(function () { // console.log('连接关闭'); });
但是 , 这仅限于简单地抓取 html , 有很大的局限性。
假如你想要的内容不在 html 里 , 而是 js 动态生成的 , 那 http 模块就不能满足你的需求了 ;
假如网页使 gbk 编码的 , 上述方法也不太好用了。
假如是 https 上述方法也要改一改了。
我渴望一个更强大 , 但使用起来也不麻烦的工具。
PhantomJs
用 PhantomJs 就可以解决上述问题。
PhantomJs 就是一个没有界面的浏览器。
安装
使用 cnpm 安装 PhantomJS 即可:
cnpm install phantomjs --save-dev
这里我没有选择全局安装 , 因为全局安装的话 , 别人使用我的源码的时候 , 不知道还有这么一个依赖 , 项目就跑不起来了。
如果你也选择局部安装 , 那么你需要在 package.json 里的 scripts 中加入一段 :
"phantomjs":"node_modules/.bin/phantomjs"
等下会用到这个的 , 到这里 , 安装算完成了。
写代码
我们新建一个文件 , 名字随意 , 这里我新建一个 main.js :
var webpage = require('webpage'); var page = webpage.create(); page.open('http://www.baidu.com/', function (status) { var data; if (status === 'fail') { console.log('open page fail!'); } else { console.log(page.content);//打印出HTML内容 } page.close();//关闭网页 phantom.exit();//退出phantomjs命令行 });
这里有个 webpage 模块 , 我们刚才明明没有这个模块 , 为什么能引用这个模块 "htmlcode">
npm run phantomjs main.js
这里的 npm run phantomjs
对应的就是前面我们在 package.json 里加入的那段命令 , 很方便吧 , 几乎和 http 模块一样方便。
page.content 就是 html 代码了 , 这个 page 对象还有很多的属性 , 功能更强大。
到这里 , 你就已经算入门了 , 想知道更多可以去 phantomjs 官网看看文档了。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
更新日志
- 三国志8重制版武将图像怎么保存 三国志8重制版武将图像设置方法
- 何方.1990-我不是那种人【林杰唱片】【WAV+CUE】
- 张惠妹.1999-妹力新世纪2CD【丰华】【WAV+CUE】
- 邓丽欣.2006-FANTASY【金牌大风】【WAV+CUE】
- 饭制《黑神话》蜘蛛四妹手办
- 《燕云十六声》回应跑路:年内公测版本完成95%
- 网友发现国内版《双城之战》第二季有删减:亲亲环节没了!
- 邓丽君2024-《漫步人生路》头版限量编号MQA-UHQCD[WAV+CUE]
- SergeProkofievplaysProkofiev[Dutton][FLAC+CUE]
- 永恒英文金曲精选4《TheBestOfEverlastingFavouritesVol.4》[WAV+CUE]
- 群星《国风超有戏 第9期》[320K/MP3][13.63MB]
- 群星《国风超有戏 第9期》[FLAC/分轨][72.56MB]
- P1X3L《P1X3L》[320K/MP3][143MB]
- 群星.2022-良辰好景知几何电视剧原声带【SONY】【FLAC分轨】
- 庾澄庆.1991-管不住自己【福茂】【WAV+CUE】