leyu·乐鱼

奇 科

论坛leyu·乐鱼>>优化知识>>搜索引擎索引系统概述

1搜索引擎leyu·乐鱼上整页1下整页尾页
shenqi
等级:普通会员
头衔: 新手上路
星数:
帖数:68
精华:3
积分:43
消息:
  查看资料
发布于:2015-12-04 15:14
字体大小: 1#

搜索引擎索引系统概述

随着互联网的高速发展,众所周知,查找组件的注意作业流程中 还有:添加、存贮、页定量分析、引索、数据检索等三个注意流程中 。上章节我注意说明了部位添加存贮基本原则中的内部,此章简略说明以下引索软件系统。 在以亿为公司的的网页内容库文件查看对应的个别首要词如同大诲里捞针,是相应的时段内能能来完成查看,而且客户组数等不出,从客户组数效果角度来你们须要在毫秒层次提供给客户组数认同的结果显示,一旦违反客户组数只有短缺。怎么就要高达这一种条件呢?

如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:

 1,页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;
        2,分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;
        3,之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},下图即是索引系统中的倒排索引过程。


        倒排索引是搜索引擎实现毫秒级检索非常重要的一个环节,下面我们要重要介绍一下索引系统建立倒排索引的重要过程——入库写库。

 

 

索引系统在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部,并且对数据进行压缩,这涉及到的过于技术化在此就不多提了。在此简要给大家介绍一下索引之后的检索系统。

检索系统主要包含了五个部分,如下图所示:
 
(1)Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以“10号线地铁故障”为例,可能的分词如下(同义词问题暂时略过):
        10  0x123abc
        号   0x13445d
        线   0x234d
        地铁 0x145cf
        故障 0x354df


(2)查出含每个term的文档集合,即找出待选集合,如下:
         0x123abc   1  2 3  4  7  9…..
         0x13445d   2  5 8  9  10  11……
          ……
          ……
(3)求交,上述求交,文档2和文档9可能是我们需要找的,整个求交过程实际上关系着整个系统的性能,这里面包含了使用缓存等等手段进行性能优化;
(4)各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;
(5)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等

 

 

上面的内容好象有些深奥,因为涉及大量技术细节,我们只能说到这儿了。那下面我们说说大家最感兴趣的排序问题吧。用户输入关键词进行检索,百度搜索引擎在排序环节要做两方面的事情,第一是把相关的网页从索引库中提取出来,第二是把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括:
        1,相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等
        2,权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索引擎也更相信优质权威站点提供的内容。
        3,时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。
        4,重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度
        5,丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。
        6,受欢迎程度:指该网页是不是受欢迎。

之内是百庋搜素汽车刹车系统选择搜素然而去重复时满足的四大的基本遵循要素,现在四大的基本遵循要素的重要性点是什么的呢?哪种的基本遵循要素在实际适用时总额最大的呢?实际你不在里并没有一位准确的的正确的答案。在百庋搜素汽车刹车系统之前,这类阀值不容置疑是比一定的,像是“相应性”在整体的去重复中的重量体积能占去百分之七十。但随之互下载客户端网的不息不断发展,信息检索技术应用的持续发展,网页内容数的爆发性式提升,相应性逐渐不再是难处。然后百庋搜素汽车刹车系统构建了机械设备学业考核机制,让过程手动创作换算计算方式,发展去重复原则越来越合情合理。

 

 

我们理解网站生存发展需要资金支持,从来不反对网站添加各种合法广告,不要再问我们“我们网站加了XX联盟的广告会不会被处罚”这类问题。有些站点好不容易在百度有了比较好的排位,却在页面上放置大量有损访问用户体验的广告,已经严重影响到百度搜索引擎用户的使用感受。为此,百度质量团队2013年5月17日发布公告:针对低质量网页推出了石榴算法,旨在打击含有大量妨碍用户正常浏览的恶劣广告的页面,尤其是弹出大量低质广告、存在混淆页面主体内容的垃圾广告的页面。

如以下网页截图,用户要花很长时间去寻找真正的下载地址,是百度无法接受容忍的。

百度一下性能人员想要网站leyu·乐鱼运营者可多从我们组组立场开始,看向今后进步顾虑,已不导致我们组组使用体验的先决条件下科学合理地放上广告词,取胜我们组组的太久看重是某个网站leyu·乐鱼进步做大做强的基础理论。

IP 属地:广州
相关帖子
收藏 顶 0 踩 0
0
1网站leyu·乐鱼上一行1下两页尾页

邻接权所以2013-2016  奇科(河南)现代科技有限的机构   

情谊链接转换:

连接.我

全国各省保障电活:18680314191

我的微信扫扫下

×
seo seo

消息内容

×
小道消息的长度比较多可插入100个字亦或200个字母a

回复内容

×

编辑回复内容

×