首页 技术 正文
搜索引擎是如何在一秒钟在几十亿页面检索到内容的

 2023-02-22    224  

那作为一名程序员,我觉得有必要花几分钟的时间给大家科普一下搜索引擎的工作原理。

看看他是如何帮助我们快速的在毫秒之间,从几亿个网站中精准的找到这针牙签的。

一般来讲搜索引擎的工作流程,包括数据抓取、数据处理和数据查询三个部分。

下面我就用牙签的例子帮助大家理解整个过程,首先是数据抓取,用户搜索到的网站内容归根结底是来源于存储网页的,数据库的,那这些数据从哪里来呢肯定不可能人工一热一热的去找网页,然后塞到数据库里对吧?更多的是交给机器,按照一定的规则来自动抓取,我们把负责数据抓取的东西叫做spider,蜘蛛一般每家的搜索引擎都会培育自己的蜘蛛,各家的蜘蛛原理基本相似,但也都有一些特殊的行为,蜘蛛是怎么工作的呢?

我们知道蜘蛛喜欢爬网对吧?

其实整个互联网就是一张大网,这张网由多着网页多着节点组成,那我们只要启动这个网页蜘蛛给他一根线,他就能够以这针线作为入口,通过页面之间的超链接关系,顺着网不断发现新的网址一级一级的爬下去,

小蜘蛛的目标就是尽最大的可能抓到更多有价值的网页,比如说现在有位作者写了一篇无牙签的文章,发到了某个写作平台,那网页蜘蛛,呢他就可以先进入这个写作平台,然后顺着这个写作平。

台,呢发现这篇无牙签的文章抓取到的链接呢将塞到一个专门存储网页的数据库中集中的管理。

对于一个非常非常大型的搜索引擎,你在设计数据抓取系统的时候要考虑到很多的问题,比如说网页的重复和失效,

当一个网页发生更新时,我们也要把已经存到数据库中的网页进行一个更新,尽量不要让用户搜到过时或者说多余的内容,

还有一些其他问题,比如说怎么提高抓取网站的质量,就尽量少抓这些不良信息垃圾网络网站,

还有如何保证抓取的友好性,不要说你这个蜘蛛太大,然后访问网站太频繁,把整个网站给搞挂了,还有就是怎么能尽可能多的抓到一些网站,

防止一些网站他自己单独起一张网,

和现有的大网隔离,你碰不到。

除此之外还有很多其他的问题,比如说抓取的协议算法策略,

还有抓取失败了,应该怎么处理等等都要考虑,所以一个抓取系统的宏观流程没有我们想象的那么简单,

那假如说我们自己做了一个网站,肯定也希望其他同学能搜到对吧?

那么最关键的一点就是先要让蜘蛛抓到爬到你的网站,并且要多抓,

这就需要我们了解搜索引擎蜘蛛的抓取规则,比如某度搜索引擎它其实是根据四的指标来确定网站的抓取次数和频率,

比如你的网站更新越快,我抓的越多,你的网站质量越高,评价越好,我抓的越多,还有你的网站要保持能够正常访问,

还有就是你的站点评价,一般会根据一个算法自动的对你的网站进行一个打分,分数越高,收录度越高,


添加谷歌搜索留痕QQ获取更多免费工具:QQ:2843670184,

原文链接:http://rbd.lianqin.cc/jishu/9.html

=========================================

http://rbd.lianqin.cc/ 为 “谷歌留痕-外链代发” 唯一官方服务平台,请勿相信其他任何渠道。