nodejs完成网址抓取作用第三方库

lxf2023-03-18 14:05:01

本文给大家介绍一下node中依靠第三方开源库真正实现网址抓取功能性的方式,希望能帮助到大家!

nodejs完成网址抓取作用第三方库

nodejs完成网址抓取作用

第三方库详细介绍

  • request 对网络请求的封装形式

  • cheerio node 版本 jQuery

  • mkdirp 建立多层文件夹目录

完成构思

  • 根据request获得特定 url 具体内容

  • 根据cheerio寻找页面上自动跳转的路线(去重复)

  • 根据mkdirp创建目录

  • 根据fs创建文件,将载入内容载入

  • 取得并没有浏览的路线反复之上实行流程

代码编写

const fs = require("fs");
const path = require("path");
const request = require("request");
const cheerio = require("cheerio");
const mkdirp = require("mkdirp");
// 界定通道url
const homeUrl = "https://www.baidu.com";
// 界定set存放早已浏览过的路线,避免重复浏览
const set = new Set([homeUrl]);
function grab(url) {
  // 校检url规范化
  if (!url) return;
  // 去空格符
  url = url.trim();
  // 自动补全url途径
  if (url.endsWith("/")) {
    url  = "index.html";
  }
  const chunks = [];
  // url可能出现一些符号或是汉语,能通过encodeURI编号
  request(encodeURI(url))
    .on("error", (e) => {
      // 打印错误信息内容
      console.log(e);
    })
    .on("data", (chunk) => {
      // 接受回应具体内容
      chunks.push(chunk);
    })
    .on("end", () => {
      // 将相对应具体内容转化成文字
      const html = Buffer.concat(chunks).toString();
      // 并没有掌握到具体内容
      if (!html) return;
      // 分析url
      let { host, origin, pathname } = new URL(url);
      pathname = decodeURI(pathname);
      // 根据cheerio分析html
      const $ = cheerio.load(html);
      // 将途径做为文件目录
      const dir = path.dirname(pathname);
      // 创建目录
      mkdirp.sync(path.join(__dirname, dir));
      // 往文件写入具体内容
      fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => {
        // 打印错误信息内容
        if (err) {
          console.log(err);
          return;
        }
        console.log(`[${url}]保存成功`);
      });
      // 掌握到页面上全部a元素
      const aTags = $("a");
      Array.from(aTags).forEach((aTag) => {
        // 掌握到a标识里的途径
        const href = $(aTag).attr("href");
        // 这里能够校检href的合理合法或是操纵爬来的网址范畴,例如务必全是某一网站域名中的
        // 清除空标识
        if (!href) return;
        // 清除ps钢笔联接
        if (href.startsWith("#")) return;
        if (href.startsWith("mailto:")) return;
        // 如果不想要存图能够滤掉
        // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return;
        // href一定要通道url网站域名
        let reg = new RegExp(`^https?:\/\/${host}`);
        if (/^https?:\/\//.test(href) && !reg.test(href)) return;
        // 能够根据实际情况增加更多逻辑性
        let newUrl = "";
        if (/^https?:\/\//.test(href)) {
          // 解决相对路径
          newUrl = href;
        } else {
          // 解决绝对路径
          newUrl = origin   path.join(dir, href);
        }
        // 确定是否浏览过
        if (set.has(newUrl)) return;
        if (newUrl.endsWith("/") && set.has(newUrl   "index.html")) return;
        if (newUrl.endsWith("/")) newUrl  = "index.html";
        set.add(newUrl);
        grab(newUrl);
      });
    });
}
// 逐渐爬取
grab(homeUrl);

汇总

简单网页爬虫就完成,能把homeUrl改为自己想抓取网站试一下。

大量node基本知识,请访问:nodejs 实例教程!!

以上就是关于聊一聊node中怎么依靠第三方开源库完成网址抓取功能性的具体内容,大量欢迎关注AdminJS其他类似文章!