首页 > 正文标题
那么,百度是如何收录我们旅游线路的呢?
索引,我们更习惯将之称为收录,是搜索引擎(百度)工作的第二步,主要目的是对在爬行过程中发现的有价值的新内容网页进行分析、处理、初步排序,然后存进数据库。
在索引的过程中有几个核心的点我重点解释一下。
1.被爬行:网页能否被收录,必须能被百度蜘蛛爬行到,没有被爬行到的网页做得再优秀也无济于事,这点在上面已经说过。所以,当一个网站里的页面收录情况很差的时候,如果要查明收录情况差的原因,就需要从网页是否被百度蜘蛛爬行过做起!
2.有价值的新内容网页:首先,新内容网页,可以是新发布的网页,也可以是经过大幅度修改后的老网页(标题、内容修改前后文字大不一样),但是网页内容只是新还不足够,还必须得是有价值的!比如,一篇由几百个汉字随便拼凑而成不具备任何可读性的文章,内容是很新、并且还独一无二,但是因为没有任何的价值,百度一样不会收录该页面!
百度又不是人,它又怎么知道我的网页内容是不是新的、是不是独一无二的、是不是有用的呢?这个就要介绍到百度如何对爬行到的网页进行处理的了。
第一步:文件存储
百度蜘蛛将爬行的数据存入原始页面数据库,每个URL都有一个独特的编号,这些页面数据与我们通过浏览器看到的是完全一样的,所以不要企图通过一些技术手段来实现给百度和游客展示不同的内容,一旦被发现,对网站就会是致命的打击。
第二步:提取文字
百度是以文字内容为基础进行分析的,会从蜘蛛抓取到的HTML文件中去除代码标签、程序等,提取出可以用于排名处理的网页页面文字内容。
但是在这个过程中,百度并不能识别图片、视频、flash里面的内容,所以在百度看来,一个满页面都是图片(视频、flash)而没有文字的网页几乎就是一个空白页面。当然了,会有其他的办法来弥补这个缺点,但我们要想获得较好的收录以及排名,最好还是主动避免这种情况的发生,最好是给图片配以适当的相关介绍文字,以图文并茂的形式来发布新的内容!
第三部:中文分词
分词是中文搜索引擎特有的步骤。百度存储和处理页面,以及用户搜索都是以词为基础,即我们所说的关键词。而所谓的分词,即百度程序会将上面提取出来的文章,分割成一个一个的词组,至于具体的分割原理,则非常复杂。搜索引擎必须分辨哪几个字组成一个词,哪些字本身就是一个词。比如“厦门旅游景点”,可能被分词为“厦门”和“旅游景点”两个词,也可以能会被分词为“厦门旅游”和“景点”两个词,还有可能会被作为一个独立的词“厦门旅游景点”来处理!所以我们要尽可能的让我们的目标关键词多次出现,或者是适当的给他们采取加粗的形式,以防他们被分割成不同的词。
第四步:去停止词
无论英文中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”,“地”,“得”之类的助词,“啊”,“哈”,“呀”之类的感叹词,“从而”,“以”,“却”之类的介词。这些词被称为停止词,因为它们对页面主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
第五步:消除噪声
绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。这些区块都属于噪声,对页面主题只能起到分散作用。搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。
第六步:去重
同一篇文章经常会重复出现在不同网站以及同一个网站的不同网页上,搜索引擎并不喜欢这种重复性的内容。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为去重。去重的基本方法是对页面特征关键词计算指纹,简单地增加“的,地,得”、调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别,混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。被百度判断为重复内容的页面,往往是导致百度不收录的重要原因之一!
第七步:正向索引
经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等)。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。
搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如下表所示。
第八步:倒排索引
正向索引还不能直接用于排名,无法满足实时返回排名结果的要求。所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。如下表所示:
在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。
经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的。
至此,百度就已经完成了对我们的线路页面的收录工作,但是这并不代表着我们的线路就能在百度获得较好的排名,能否获得好的排名,则要看排序阶段!排序阶段涉及到的内容比较多,估计要写一本书才能描述清楚,以后再慢慢安排时间一一介绍!
浅谈百度如何收录我们的旅游线路(爬行篇):http://www.cncn.net/zaobao/21952
(文:欣欣旅游网:一刀)
0
没有电话,咨询不了,请速联系,咨询密云CS...
谢谢你们的认可和支持。欢迎你们以后有时间...
更多精彩内容,请访问:https://www.beijly...
照片没有保存下来 请大家打开自己的小手自己...
西藏旅游今年市场还在等疫情散去的这一波高...
你可能不是行业专家,但你一定有独特的观点和视角,赶紧和业内人士分享吧!
我要投稿
投稿须知
作为行业领先的旅游商业和科技媒体,《文旅界》致力于以独立的新闻态度,挖掘和报道旅游行业的重要事件,以及影响旅游业发展的新趋势、新模式和新科技,为旅游业者提供专业、及时、深度的旅游信息服务。
无论您是:投放在线广告、企业招聘、寻求报道、还是投稿爆料、加入评论员,欢迎通过以下方式联系我们:
0592-6532122
wangjing@cncn.net
欣欣旅行社同业社群招募中,勾搭小编微信号:cncn4021入社群
扫描二维码分享到微信
分享到
0
0
0
0
0
0
0
0
0
0