什么？Python爬虫是病毒？一文带你真正了解什么是Python爬虫（python数据爬虫是什么）-eolink官网

什么？Python爬虫是病毒？一文带你真正了解什么是Python爬虫（python数据爬虫是什么）

说到Python爬虫，很多行业外人士脑子里的第一印象就是长着很多腿，然后在陆地上爬行的虫子就是爬虫，亦或者认为是一种病毒。而业内人士想说，你们低估了Python爬虫。

首先，Python爬虫不是看得见的虫子，更不是一种病毒。它是能够自动访问互联网并将网站内容下载下来的程序。它也是搜索引擎的基础，像百度和GOOGLE都是凭借强大的网络爬虫，来检索海量的互联网信息的然后存储到云端，为网友提供优质的搜索服务的。

可能很多人看到这里还不清楚，接下来就来以一个例子说说

想象你是一只蜘蛛，现在你被放到了互联“网”上。那么，你需要把所有的网页都看一遍。怎么办呢？没问题呀，你就随便从某个地方开始，比如说人民日报的首页，这个叫initial pages，用$表示吧。

在人民日报的首页，你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了，这样你就已经爬完了俩页面（首页和国内新闻）！暂且不用管爬下来的页面怎么处理的，你就想象你把这个页面完完整整抄成了个html放到了你身上。

突然你发现，在国内新闻这个页面上，有一个链接链回“首页”。作为一只聪明的蜘蛛，你肯定知道你不用爬回去的吧，因为你已经看过了啊。所以，你需要用你的脑子，存下你已经看过的页面地址。这样，每次看到一个可能需要爬的新链接，你就先查查你脑子里是不是已经去过这个页面地址。如果去过，那就别去了。

好的，理论上如果所有的页面可以从initial page达到的话，那么可以证明你一定可以爬完所有的网页。

969 2022-06-14

什么？Python爬虫是病毒？一文带你真正了解什么是Python爬虫（python数据爬虫是什么）