249045439
网站优化

SEO之谷歌搜索引擎原理

发表日期:2024-01-08   作者来源:www.liufacai.com   浏览:0   标签:谷歌    
1绪论Web给信息检索带来了新的挑战。Web上的信息量迅速增长,同时不断有毫无经验的新用户来体验Web这门艺术。大家喜欢用超级链接来网上冲浪,一般都以象Yahoo如此要紧的网页或搜索引擎开始。大伙觉得List(目录)有效地包括了大伙有兴趣的主题,但它具备主观性,打造和维护的代价高,升级慢,不可以包含所有深奥的主题。基于关键字的自动搜索引擎一般返回太多的低水平的匹配。使问题更遭的是,一些广告为了取得大家的关注挖空心思误导自动搜索引擎。大家打造了一个大型搜索引擎解决了现有系统中的不少问题。应用超文本结构,大大提升了查看水平。大家的系统命名为谷歌,起名字自googol的通俗拼法,即10的100次方,这和大家的目的打造一个大型搜索引擎不谋而合。1.1互联网搜索引擎—升级换代(scalingup)SEO之谷歌搜索引擎原理跟上Web的节奏(ScalingwiththeWeb)打造一个可以和当今web规模相适应的搜索引擎会面临很多挑战。抓网页技术需要足够快,才能跟上网页变化的速度(keepthemuptodate)。存储索引和文档的空间需要足够大。索引系统需要可以有效地处置上千亿的数据。处置查看需要快,达到每秒能处置成百上千个查看(hundredstothousandspersecond.)。伴随Web的不断增长,这类任务变得愈加艰巨。然而硬件的实行效率和本钱也在迅速增长,可以部分抵消这类困难。还有几个值得注意的原因,如磁盘的寻道时间(diskseektime),操作系统的效率(operatingsystemrobustness)。在设计谷歌的过程中,大家既考虑了Web的增长速度,又考虑了技术的更新。谷歌的设计可以非常不错的升级处置大量数据集。它可以有效地借助存储空间来存储索引。优化的数据结构可以迅速有效地存取(参考4.2节)。进一步,大家期望,相对于所抓取的文本文件和HTML网页的数目而言,存储和打造索引的代价尽量的小(参考附录B)。对于象谷歌如此的集中式系统,采取这类手段得到了让人认可的系统可升级性(scalingproperties)。1.3设计目的1.3.1提升搜索水平大家的主要目的是提升Web搜索引擎的水平。1994年,有人觉得打造全搜索索引(acompletesearchindex)可以使查找任何数据都变得容易。依据BestoftheWeb1994—Navigators,“最好的导航服务可以使在Web上搜索任何信息都比较容易(当时所有些数据都可以被登录)”。然而1997年的Web就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索水平的唯一准则。用户有兴趣的搜索结果总是湮没在“垃圾结果Junkresult”中。事实上,到1997年11月为止,四大商业搜索引擎中只有一个可以找到它自己(搜索自己名字时返回的前十个结果中有它自己)。致使这一问题的重要原因是文档的索引数目增加了好几个数目级,但用户可以看的文档数却没增加。用户仍然只期望看前面几十个搜索结果。因此,当集合增大时,大家就需要工具使结果精确(在返回的前几十个结果中,有关文档的数目)。因为是从成千上万个有点有关的文档中选出几十个,事实上,有关的定义就是指最好的文档。高精确尤为重要,甚至以响应(系统可以返回的有关文档的总数)为代价。让人开心的是借助超文本链接提供的信息能够帮助改进搜索和其它应用。特别是链接结构和链接文本,为有关性的判断和优质的过滤提供了很多的信息。谷歌既借助了链接结构又用到了anchor文本(见2.1和2.2节)。

本文题目SEO之谷歌搜索引擎原理

如没特殊注明,文章均为龙源技术网 原创,转载请注明来自http://www.yanlongwu.com/news/youhua/6648.html