搜索引擎的概念-搜索引擎的发展历史-搜索引擎的分类

  • A+
所属分类:SEO教程

想要学好搜索引擎营销的相关知识,首先要了解什么是搜索引擎,搜索引擎是怎样工作的。本节主要从搜索引擎的概念、搜索引擎的发展历史、搜索引擎的分类等几个方面进行详细介绍。

一、搜索引擎的概念

搜索引擎(search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

二、 搜索引擎的发展历史

了解搜索引擎的发展历程,有助于SEO人员理解搜索引擎的发展、变革,对未来有更准确的预期。从搜索引擎技术变革角度来说,可以将搜索引擎的发展分为以下4个时代。

1. 第一代:分类目录时代

这个时代也可以称为“导航时代”,Yahoo 和国内的 hao123是这个时代的代表。通过人工收集整理,把属于各个类别的高质量的网站或者网页分门别类。如在hao123这个网站看到的几乎都是一些分类网址,用户可以根据分级目录来查找高质量的网站。这种方式是纯人工的方式,井未采取什么高深的技术手段。

采用分类目录搜索引擎收录的网站质量一般比较高,但是这种方式的可扩展性不强,绝大部分网站不能被收录。

2. 第二代:文本检索时代

到了文本检索时代,搜索引擎查询信息的方法则是将用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关度较高的信息。这一代的搜索引擎采用了经典的信息检索模型,比如布尔模型、向量空间模型以及概率模型,通过这些信息检索模型来计算用户查询关键字与网页文本内容的相关度,将相关度高的返回给用户。早期的搜索引擎多采用这种模式,例如AltaVista、Excite。

3. 第三代:链接分析时代

这一代的搜索引擎充分利用了网页之间的链接关系。简单来说,网页链接代表了一种推荐关系,与如今网站中使用的外部链接相似,所以通过链接分析可以在海量内容中找到重要的网页。这种重要性本质上是对网页流行程度的一种衡量,因为被推荐次数多的网页代表了它具有流行性。搜索引擎通过结合网页流行性和内容相关性来改善搜索质量。

Google 率先提出井使用 PageRank 链接分析技术,井大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。后来学术界以此成就为基础,提出了更多的改进链接分析算法。目前,大多数搜索引擎都使用这种链接分析技术。

采用链接分析技术能够有效改善搜索结果的质量,但是这种搜索引擎井未考虑用户的个性化要求,所以只要输入的搜索信息相同,所有用户都会获得相同的搜索结果。另外,许多网站拥有者为了使网站获得更高的搜索排名,针对链接分析算法提出了不少链接作弊方案,这样导致搜索结果的质量不断变差。

4. 第四代:用户中心时代

目前的搜索引擎大都可以归入第四代,即以理解用户需求为核心。当用户输入查询的请求时,查询同一个关键词的用户可能有不同的需求。比如同样输入“苹果”作为查询词,一个追捧iphone的用户和一位果农的搜索结果会有很大的差异。甚至是同一个用户,输入相同的查询词,也会因为时间和场合不同而得到不同的搜索结果。而目前的搜索引擎大都致力于解决同一个问题:如何能够从用户所输入的一个简单的关键词来判断用户真正的查询请求。

为了能够获取用户的真正需求,目前搜索引擎大都做了很多技术方面的尝试,比如利用用户发送查询词的时间和地理位置等信息,或者利用用户过去查询的信息、历史记录等技术手段,来试图理解用户此时此地的真正需求。

三、搜索引擎的分类

搜索引擎主要可以分为三类:全文搜索引擎、目录搜索引擎和元搜索引擎,具体介绍如下。

1. 全文搜索引擎

全文搜索引擎是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,井将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜索引擎是目前应用最广泛的搜索引擎,其中最具代表性的全文搜索引擎为Google、百度。

全文搜索引擎的检索方法主要分为按字检索和按词检索两种。

(1)按字检索按字检索是指对文章中的每一个字都建立索引,在检索时将词分解为字的组合。对于不同的语言文字而言,字有不同的含义,比如英文中字与词实际上是统一的,而在中文中字与词则有较大区别。

(2)按词检索

按词检索是指对文章中的词,即语义单位建立索引,检索时按词检索,井且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,这也是当前全文检索技术尤其是中文全文检索技术中的一个难点。

2. 目录搜索引擎

目录搜索引擎指的是以人工或半自动的方式搜集信息,由编辑人员查看信息后,人工进行信息摘要,井将信息置于事先确定的分类框架中。这些信息主要面向网站,提供目录浏览服务和直接检索服务。最具代表性的目录搜索引擎为Yahoo和新浪分类目录搜索。

目录搜索引擎虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而己。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

3. 元搜索引擎

元搜索引擎就是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(可以是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。具有代表性的元搜索引擎为360搜索。

一个完整的元搜索引擎由三部分组成,即检索请求提交机制、检索接口代理机制和检索结果显示机制。

· 检索请求提交机制:负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。

· 检索接口代理机制:负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。

· 检索结果显示机制:负责所有元搜索引擎检索结果的去重、合井、输出处理等。

元搜索引擎的出现,对于那些需要连续不断地使用不同的搜索引擎重复相同信息检索的人来说,是一个福音。使用元搜索引擎可同时对几个搜索引擎进行检索,获得分级编排的检索。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: