基于CSDN爬虫教程所编辑的文档

引言

爬虫是一种常见的、可以快速的获取用户需要的信息的一类手段。鉴于本人的菜逼代码水平,以及刚学爬虫不到5天尚且没有达到独立写项目的水平。因此结合CSDN的教程来写一些个人的见解,同时也能加深一下个人的印象。

原文链接(Python爬虫史上超详细讲解(零基础入门,老年人都看的懂)-CSDN博客)

正文

1.正式进行编译爬虫前需要解锁的技能包

首先,我要先纠正一个错误。爬虫并不是全用python写的,网络上也存在其他的语言的爬虫,由于python语法简单,第三方库全面,以及独一档的数据处理能力,使其可以在一众语言中脱颖而出,成为主流的编译爬虫的语言。因此,为写好爬虫,需要对python的语法及其类库有一定的认知。

其次,我并不认为只会py就能写出来爬虫,因为爬虫需要用到正则表达式,并且正则表达式的编写需要参考你所爬取的网页的源代码,如果看不懂html文件,同样写不出来能够运行的程序,因此在进行爬虫的学习前,需要先学习正则表达式和html,这样才不会在扒控制台的时候一脸黑线。

最后,也是最重要的一点,保持一个好的心态,无论在做什么,写什么。

2.爬虫程序的流程

1.发起请求: 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers、data等信息,然后等待服务器响应。

2.获取响应内容: 如果服务器能正常响应,我们会得到一个Response,Response的内容便是所要获取的内容,类型可能有HTML、Json字符串,二进制数据(图片,视频等)等类型。这个过程就是服务器接收客户端的请求,进过解析发送给浏览器的网页HTML文件。

3.解析内容: 得到的内容可能是HTML,可以使用正则表达式,网页解析库进行解析。也可能是Json,可以直接转为Json对象解析。可能是二进制数据,可以做保存或者进一步处理。这一步相当于浏览器把服务器端的文件获取到本地,再进行解释并且展现出来。

4.保存数据: 保存的方式可以是把数据存为文本,也可以把数据保存到数据库,或者保存为特定的jpg,mp4 等格式的文件。这就相当于我们在浏览网页时,下载了网页上的图片或者视频。

3.基于代码的详细介绍

其实这一块我不想插入太多的代码段,因为我博客的markdown经常抽风,代码块可能会变的非常抽象,所以决定等到什么时候优化了markdown渲染再补()