Node.js 利用cheerio制作简单的网页爬虫示例

网络编程 2025/1/11 佚名

3 1 2

本文介绍了Node.js 利用cheerio制作简单的网页爬虫示例，分享给大家，具有如下：

1. 目标

完成对网站的标题信息获取
将获取到的信息输出在一个新文件
工具: cheerio，使用npm下载npm install cheerio
cheerio的API使用方法和jQuery的使用方法基本一致
如果熟练使用jQuery，那么cheerio将会很快上手

2. 代码部分

介绍: 获取segment fault页面的列表标题，将获取到的标题列表编号，最终输出到pageTitle.txt文件里

const https = require('https');
const fs = require('fs');
const cheerio = require('cheerio');
const url = 'https://segmentfault.com/';

https.get(url, (res) => {
  let html = '';
  res.on('data', (data) => {
    html += data;
  });
  res.on('end', () => {
    getPageTitle(html);
  });
}).on('error', () => {
  console.log('获取网页信息错误');
});

function getPageTitle(html) {
  const $ = cheerio.load(html);
  let chapters = $('.news__item-title');
  let data = [];
  let index = 0;
  let fileName = 'pageTitle.txt';
  for (let i = 0; i < chapters.length; i++) {
    let chapterTitle = $(chapters[i]).find('a').text().trim();
    index++;
    data.push(`\n${index}, ${chapterTitle}`);
  }
  fs.writeFile(fileName, data, 'utf8', (err) => {
    if (err) {
      console.log('fs文件系统创建新文件失败', err);
    }
    console.log(`已成功将获取到的标题放入新文件${fileName}文件中`)
  })
}

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Node,cheerio,网页爬虫,cheerio,爬虫

华山资源网 Design By www.eoogi.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

华山资源网 Design By www.eoogi.com

评论“Node.js 利用cheerio制作简单的网页爬虫示例”

暂无评论...

www.eoogi.com 华山资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

群星《奔赴！万人现场第2期》[FLAC/分轨][5

2025/1/11

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2025/1/11

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2025/1/11

【古典音乐】詹姆斯·高威《季节》1993[WAV+

2025/1/11

贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

2025/1/11

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2025/1/11

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。

首次推出的GDDR7内存模块密度为16GB，每个模块容量为2GB。其速度预设为32 Gbps（PAM3），但也可以降至28 Gbps，以提高产量和初始阶段的整体性能和成本效益。
据三星表示，GDDR7内存的能效将提高20%，同时工作电压仅为1.1V，低于标准的1.2V。通过采用更新的封装材料和优化的电路设计，使得在高速运行时的发热量降低，GDDR7的热阻比GDDR6降低了70%。

更新日志

2025年01月11日

Node.js 利用cheerio制作简单的网页爬虫示例

vue-prop父组件向子组件进行传值的方法

vue父组件向子组件传递多个数据的实例

评论“Node.js 利用cheerio制作简单的网页爬虫示例”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Node.js 利用cheerio制作简单的网页爬虫示例

vue-prop父组件向子组件进行传值的方法

vue父组件向子组件传递多个数据的实例

评论“Node.js 利用cheerio制作简单的网页爬虫示例”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存