跟我学seo从入门到精通第二章

作者:小编 评论:0

跟我学seo从入门到精通第二章

理解搜索引擎的工作原理

GQ

通过上一章的学习,读者已经了解了SEO 的一些基本理论知识。 本意中作者将

3人要视人心對理索引擎的工作原理,这对于更深层地理解SEO非常重艺

不现实的,也脱岗了SEO的本质。

2.1 “蜘蛛” 并非动物

投索引擎鲍妹(Spider)是一个很形象的名字。如果把互联网看成一个跑跌现。

那么Snide就是在网上爬来爬去的蜘蛛,搜索引擎蜘蛛通过网页的链接地址来平找

网面,从网站的一个页面(通常是首页)开始读取网页的内容,找到网页中的其他

链授地址,然后通过这些链接地址寻找下一个网页,这样循环下去,直到抓取这个

网站的所有网页为止。如果把整个互联网看成一个网站,那么搜索引擎蜘蛛就能用

这个方法把互联网上所有网页的信息都抓取下来。

2.1.1 搜索引擎蜘蛛的分类

按照抓取内容的不同可以将搜索引擎蜘蛛分为以下几类。

A. 全文索引

能分两种。 全文搜索引擎从网站提取信息,建立网页数据库。搜索引擎的自动信息搜策办

一种是定明搜索,即每隔一段时间(如 Google一般是28天),搜索引擎主流

深出购埃程序,对一定IP地址范围内的互联网网站进行检索,一旦发现新的网%

会自动提取网站的信息和网址并将其加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址。搜索引擎在

一定时间内(2天到数月不等)向网站派出婉蛛程序,扫描网站并将有关信息存入

数据库以备用户查询。后来,搜索引擎索引规则发生了很大变化,主动提交网址并

能不保证网站进入搜索引擎数据库,因此、最好的办法是多获得一些外部链接,让

搜索引擎有更多的机会找到并自动收录网站。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻。如果找到与

用户要求内容相符的网站,便采用特殊的算法(通常根据网页中关键词的匹配程

度、出现的位置、频次、链接质量)计算出各网页的相关度及排名等级,然后根

据关联度的高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率

比较高。

B.目录索引

目录索引也称“分类检索”,是因特网上最早提供 WWW 资源查询的服务。它

主要通过搜集和整理因益网的资源,级据搜索到的四明内容,将其网址分配到相关

分关主题目录的不同层次的类且之下,形成像图书馆目录一样的分类树形结构索

引,自录索引无须盆人任何文字,只要根据网站提供的主题分类目豪层层点击进入。

便可查到所需的网络信息资流

目录索引虽然有搜索功能,但在严格意义上它不是真正的搜索引擎,只是按目

录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不需

依靠关键词(Keyword)进行查询。

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提

交网站信息后,目录编辑人员会亲自浏览网站,然后根据一套自定的评判标准甚至

编辑人员的主观印象决定是否接纳该网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能

成功登录;而目录索引对网站的要求则高得多,有时登录多次也不一定成功。尤

其像 Yahoo 这样的超级索引,登录更是困难。

此外,在登录搜索引擎时,一般不用考虑网站的分类问题,而在登录目录索引

时则必须将网站放在一个最合适的目录(Directory)下。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用

户的角度看,我们拥有更大的自主权;而目录索引则要求必须手工填写网站信息,

而且还有各种各样的限制。更有甚者,如果工作人员认为我们提交网站的目录、网

站信息不合适,可以随时对其进行调整,当然事先是不会和我们商量的。

Tips:搜索引擎与目录索引有相互融合渗透的趋势。一些纯粹的全文搜索引擎

X 細的提示

20|跟我学SED 从入门到精理 日录 只就my 提供分长查的,面像1g

率比较高.

C. 元搜索 接受用户在询清求后,同时在多个搜索

早上搜索、并将结果選同發用户,著名的元搜索引擎有InfoSpace.Dogpile.Vivin 元搜索引擎(META: rt)

等,中文元搜索引擎中具有代表牲的危搜早搜索引擎,在搜素结果排列方面,你

直接按来源排列搜索结果,如 Dogpile; 看的则按自定规则将结果重新排列组合

如 Vivisimo.

2.1.2 搜索引擎蜘蛛的抓取方式

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的。从目前公

的数据来看,容量最大的搜索引擎也不过抓取了整个互联网网页数量的40%左右

其中的原因,一方面是抓取技术的瓶颈,无法遍历所有的网页,许多网页无法从

他网页的链接中找到;另一方面是存储技术和处理技术的问题。如果按照每个页

20KB 计算(包含图片),100亿个网页的容量是100×2000GB。即使能够存储,

载也存在问题(按照一台机器每秒下载 20KB计算,需要 240台机器不停地下载

年,才能把所有网页下载完毕)。

同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多

度来评价其重要性。 索引擎的蜘蛛程序只抓取那些重要的网页,而在抓取时主要依据某个网页的链接

在抓取网页的时候,搜索引擎鲍蛛一般有两种策略,分别是广度优先和深度

先,如图2-1所示。广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有

页,然后选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是

常用的方法,因为这个方法可以让搜索引擎鲍妹并行处理,以提高其抓取速度。

度优先是指搜索引擎蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完

蛛的设计比较简单。 杀线路之后再转人下一个起始页,继续眼踪链接,这个方法有个优点是搜索引擎。

毁了说问的层数,刻關21所示,A为起篷购页,质于第0层日.C.D、E、 由于不可能抓取所有的喝瓦,所以有些视索到军旅妹对一些不大重要的网站



我要评论 0条评论
说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!