博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
node JS爬虫基础篇
阅读量:6239 次
发布时间:2019-06-22

本文共 1072 字,大约阅读时间需要 3 分钟。

项目中一直用不到node,但是觉得node这门以js作为编程基础的服务端语言很有意思,用它可以写一些接口,写个爬虫.这是一门基础篇,看了一段时间文档后写个爬虫增强一下node的认识吧

爬虫的原理感觉很简单,大致分为一下三步

  1. 获取到对应网站的数据(也就是html代码)
  2. 筛选出你需要的数据(比如用户的信息,图片的地址)
  3. 下载或者整理出你所要的资源写入数据库
var http=require('http')var fs  =require('fs')var path=require('path')http.get('http://jspang.com/',function(res){    var content=''    res.on('data',function(txt){        content+=txt    })    res.on('end',function(){        var reg=/data-src="(.*?\.jpg)"/img;//匹配出图片地址        // var data=content.match(reg);        // fs.writeFile('./test.txt',data,function(){        //     console.log('写入成功')        // })        var filename=null;        //循环出图片地址        while(filename=reg.exec(content)){            getImage(filename[1])        }    })})//下载图片function getImage(url){    var obj=path.parse(url);    var name=obj.base;    var filestream=fs.createWriteStream('./img/'+name);    http.get(url,function(res){        res.pipe(filestream)    })}
当然这只是个最简单的demo了,下面会持续更新进阶版的!
市面上的框架千变万化,只有基础知识比较好才能够学习的更好,而且需要多学习一下性能优化,网络,安全这方面,因为在大公司里面,其实重要的东西并不是你能够做的多好看,而是你的安全性那些做的好不好,一不小心信息泄露了,那就会导致很多无法想象的事情。

转载地址:http://ewkia.baihongyu.com/

你可能感兴趣的文章
TOJ 假题之 Cow Brainiacs
查看>>
命令模式(Command Pattern)
查看>>
升级到Ubuntu 11.10遇到的问题
查看>>
二十年后的回眸(8)——晋级的炒更之旅
查看>>
Oracle dataGuard专题:利用冷备创建standby
查看>>
运维工程师的职责和前景
查看>>
小议安全测试【测试帮日记公开课】
查看>>
Red Hat Enterprise Linux 8 Beta 抢先体验
查看>>
objectC 数据类型转换
查看>>
阿里退市,投资人实在应该鼓掌欢迎
查看>>
zabbix企业应用之从数据库提取centos 6.2系统在线天数
查看>>
大学生抄袭,病根在哪?
查看>>
3.VMware vsphere 5.0新体验-安装VMware Center
查看>>
Windows 7的预备知识系列之二:认识Windows 7中的窗口
查看>>
运用Ntop监控网络流量(视频Demo)
查看>>
《Windows Server 2012活动目录管理实践》 内容提要、前言
查看>>
SQL高级---SQL CREATE INDEX 语句
查看>>
SharePoint 2010 使用资源管理器打开
查看>>
wpf 第一天
查看>>
接口到底是个什么玩意
查看>>