网站首页 >> SEO百科 >> 正文
标题

搜索引擎相关知识有哪些(解释搜索引擎的概念)

墨雨婷   01月02日 23:48   0
内容

搜索引擎相关知识

这是《SEO新手入门系列2021系列》的第四篇内容,前面一篇已经把搜索引擎的工作原理作了简单的介绍,可能看过SEO小也以前文章的朋友会发现,有些内容其实是已经写过的,但是为什么还要再写呢?其实SEO小也也有想过这个问题,有时一篇文章写一个知识点的时候,并不会很全面,即使很多篇文章写相同的知识点,也不一定会有重复,可以用不同的角度去写,有时候写着写着就会发现新的想法,这篇文章又继续写到搜索引擎爬虫,但是SEO小也尽量用不同角度去描述,如果有相似的内容就会少写点,直接附上链接,可以自己去看看。

Robots.txt

如果要说到搜索引擎蜘蛛,那肯定不能不提robots.txt,因为 Search Engine Spider (搜索引擎爬虫)来到网站第一件事就是去访问这个文件,下面有几点需要注意的地方:

  • robots.txt文件是大小写敏感的,不要写成Robots.txt或者robots.TXT,这样都是不行的
  • 这个文件必须放在网站根目录
  • 不要把一些后台管理登录界面放在这个文件内,因为这个文件是谁都可以访问的
  • 可以把sitemap的地址放在这个文件内最底部的位置
  • 不是所有搜索引擎爬虫都会遵守这个“君子协定的”
  • 二级域名如http://subdomain.example.com都需要放置自己独立的robots.txt文件

使用robots.txt文件对于SEO来说是最基础的一步,也是最重要的一步,怎么重要?要是设置不好真的会让搜索引擎不收录你的网站的,不信的可以看看SEO小也前一段时间写的《错误的robots文件设置对SEO的影响》,就是因为错误设置了robots规则,导致搜索引擎收录下降,还好只是设置错了一个规则,如果搜索引擎读取了错误的robots.txt文件,那很有可能整个网站就不收录了,可以看看《robots.txt文件介绍》学习下robots文件的书写规则。

sitemap文件

sitemap.xml和robots.txt是直接和搜索引擎蜘蛛打交道的两个文件,sitemap主要告诉搜索引擎网站有哪些页面,robots主要告诉搜索引擎哪些网页不能访问,可以看看《Sitemap的作用是什么-SEO基础》学习下怎么写sitemap文件,SEO小也比较懒,使用的是wordpress插件生成的,再配合搜索引擎自动提交代码。

蜘蛛行为分析

前面已经说过robots.txt文件的重要性,下面SEO小也给大家分析下蜘蛛的行为,搜索引擎的蜘蛛和现实的蜘蛛很像,他们都是顺着自己的网爬,而搜索引擎蜘蛛的网就是URL地址,我们的网站内部,就是要把这个网做好,让蜘蛛能顺利的抓取每一个重要的网页,SEO小也在很多文章中提过,蜘蛛来到我们网站,都会有一个固定的时间,不可能无限制的爬取,我们要尽量把网页结构安排合理,像SEO小也这种个人博客,从内容页到主页,一般就是3层结构,目录树太深,蜘蛛很难一次爬完,现在市面上的网站大多都是这种层级,只要经过鼠标的两次点击,一般就能找到内容页。

其实还有很多琐碎的内容,但是不打算写在这篇文章,以后会专门写一篇来介绍一些其它细节。

关于搜索引擎索引的这些概念

搜索引擎相关知识有哪些(解释搜索引擎的概念)

索引其实在日常生活中是很常见的,比如:书籍的目录就是一种索引结构,目的是为了让人们能够更快地找到相关章节内容。再比如:像hao123这种类型的导航网站,本质上也是互联网页面中的索引结构,目的类似,也是为了让用户能够尽快找到有价值的分类网站。

在计算机科学领域,索引也是非常常用的数据结构,其根本目的是为了——在具体应用中加快查找速度。比如:在数据库中,在很多高效数据结构中,都会大量采用索引来提升系统效率。

具体到搜索引擎,索引更是其中最重要的核心技术之一,面对海量的网页内容,如何快速找到包含用户查询词的所有网页?倒排索引在其中扮演了关键的角色。

本文主要讲解与倒排索引相关的技术,通过引入简单实例,介绍与搜索引擎有关的一些基本概念,了解这些基本概念对于以后深入了解索引的工作机制非常重要。

一、单词-文档矩阵

单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图1展示了其含义,图1中的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。

搜索引擎相关知识有哪些(解释搜索引擎的概念)

图1:单词-文档矩阵

  • 从纵向即文档这个维度来看:每列代表文档包含了哪些单词,比如:文档1包含了词汇1和词汇4,而不包含其他单词。
  • 从横向即单词这个维度来看:每行代表了哪些文档包含了某个单词,比如:对于词汇1来说,文档1和文档4中出现过词汇1,而其他文档不包含词汇1,矩阵中其他的行列也可做此种解读。

搜索引擎的索引其实就是实现单词-文档矩阵的具体数据结构,可以有不同的方式来实现上述概念模型。比如:倒排索引、签名文件、后缀树等方式。

但是各项试验数据表明,倒排索引是单词到文档映射关系的最佳实现方式,所以本文主要介绍倒排索引的技术细节。

二、倒排索引基本概念

在这里向大家解释倒排索引常用的一些专用术语:

  • 文档:一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象。相比网页来说,涵盖更多形式。比如:Word、PDF、XML等不同格式的文件都可以称为文档;再比如:一封邮件、一条短信、一条微博也可以称为文档。
  • 文档集合:由若干文档构成的集合称为文档集合。比如:海量的互联网网页或者说大量的电子邮件,都是文档集合的具体例子。
  • 文档编号:在搜索引擎内部,会为文档集合内每个文档赋予一个唯一的内部编号,以此编号来作为这个文档的唯一标识,这样方便内部处理,每个文档的内部编号即称为文档编号。
  • 单词编号:与文档编号类似,搜索引擎内部以唯一的编号来表征某个单词,单词编号可以作为某个单词的唯一表征。
  • 倒排索引:倒排索引是实现单词-文档矩阵的一种具体存储形式。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表,倒排索引主要由两个部分组成:单词词典和倒排文件。
  • 单词词典:搜索引擎通常的索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息及指向倒排列表的指针。
  • 倒排列表:倒排列表记载了,出现某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项。根据倒排列表,即可获知哪些文档包含某个单词。
  • 倒排文件:所有单词的倒排列表往往顺序地存储在磁盘的某个文件里,这个文件即被称为倒排文件,倒排文件是存储倒排索引的物理文件。

关于这些概念之间的关系,通过图2可以比较清晰地看出来:

搜索引擎相关知识有哪些(解释搜索引擎的概念)

图2:倒排索引基本概念示意图

三、倒排索引简单实例

倒排索引从逻辑结构和基本思路上讲非常简单,下面我们通过具体实例来进行说明,使得大家能够对倒排索引有一个宏观而直接的感受。

假设文档集合包含5个文档,每个文档包含内容如下图所示:在图3中最左端一栏是每个文档对应的文档编号,我们的任务就是对这个文档集合建立倒排索引。

搜索引擎相关知识有哪些(解释搜索引擎的概念)

图3:文档集合

中文和英文等语言不同,单词之间没有明确的分隔符号,所以首先要用分词系统将文档自动切分成单词序列,这样每个文档就转换为由单词序列构成的数据流。

为了系统后续处理方便,需要对每个不同的单词赋予唯一的单词编号,同时记录下哪些文档包含这个单词,在处理结束后,我们可以得到最简单的倒排索引(参考图4)。

图4中,“单词ID”一列记录了每个单词对应的编号,第2列是对应的单词,第3列即每个单词对应的倒排列表。比如:单词“谷歌”,其中单词编号为1,倒排列表为{1,2,3,4,5},说明文档集合中每个文档都包含了这个单词。

之所以说图4的倒排索引是最简单的,是因为这个索引系统只记载了哪些文档包含某个单词。而事实上,索引系统还可以记录除此之外的更多信息。

图5是一个相对复杂些的倒排索引,与图4所示的基本索引系统相比,在单词对应的倒排列表中不仅记录了文档编号,还记载了单词频率信息,即这个单词在某个文档中出现的次数。之所以要记录这个信息,是因为词频信息在搜索结果排序时,计算查询和文档相似度是一个很重要的计算因子,所以将其记录在倒排列表中,以方便后续排序时进行分值计算。

在图5所示的例子里,单词“创始人”的单词编号为7,对应的倒排列表内容有(3;1),其中3代表文档编号为3的文档包含这个单词,数字1代表词频信息,即这个单词在3号文档中只出现过1次,其他单词对应的倒排列表所代表的含义与此相同。

搜索引擎相关知识有哪些(解释搜索引擎的概念)

图4:最简单的倒排索引

搜索引擎相关知识有哪些(解释搜索引擎的概念)

图5:带有单词频率信息的倒排索引

实用的倒排索引还可以记载更多的信息,图6所示的索引系统除了记录文档编号和单词词频信息外,额外记载了两类信息——即每个单词对应的文档频率信息(图6的第3列)及单词在某个文档出现位置的信息。

搜索引擎相关知识有哪些(解释搜索引擎的概念)

图6:带有单词频率、文档频率和出现位置信息的倒排索引

文档频率信息代表了在文档集合中有多少个文档包含某个单词,之所以要记录这个信息,其原因与单词频率信息一样,这个信息在搜索结果排序计算中是一个非常重要的因子。

而单词在某个文档中出现位置的信息并非索引系统一定要记录的,在实际的索引系统里可以包含,也可以选择不包含这个信息,之所以如此,是因为这个信息对于搜索系统来说并非必要,位置信息只有在支持短语查询的时候才能够派上用场。

以单词“拉斯”为例:其单词编号为8,文档频率为2,代表整个文档集合中有两个文档包含这个单词,对应的倒排列表为{(3;1;<4>),(5;1;<4>)},其含义为在文档3和文档5出现过这个单词,单词频率都为1,单词“拉斯”在这两个文档中的出现位置都是4,即文档中第4个单词是“拉斯”。

图6所示的倒排索引已经是一个非常完备的索引系统,实际搜索引擎的索引结构基本如此,区别无非是采取哪些具体的数据结构来实现上述逻辑结构。

有了这个索引系统,搜索引擎可以很方便地响应用户的查询。比如:用户输入查询词 “Facebook”,搜索系统查找倒排索引,从中可用读出包含这个单词的文档,这些文档就是提供给用户的搜索结果。

而利用单词词频信息、文档频率信息即可对这些候选搜索结果进行排序,计算文档和查询的相似性,按照相似性得分由高到低排序输出,此即为搜索系统的部分内部流程。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 lkba@aliyun.com 举报,一经查实,本站将立刻删除。

转载请注明来自专注SEO技术,教程,推广 ,本文标题:《搜索引擎相关知识有哪些(解释搜索引擎的概念)》

标签:搜索引擎概念

点评

本文暂无评论 - 欢迎您