搜索引擎工作原理

您的位置:首页 > 网站运营顾问 > 搜索引擎工作原理

搜索引擎工作原理

【文章摘要】:

搜索引擎工作原理1.爬行和抓取:搜索引擎会派机器人和蜘蛛到互联网采集资料,在采集的时候主要是通过链接,还能扫描IP,即使网站没有主动提交也会被收录,具体收录速度,每个搜索引擎不一样,只要网站能打开,不管是临时域名还是正式域名,都会被收录,Google比较快,百度相对慢一些,一般做网站要现在本地测试(title,分类划分,修改模板),大致成型之后再搬到空间里,不要再刚搭建好网站就在空间里直接大改特改

搜索引擎工作原理

1.爬行和抓取:搜索引擎会派机器人和蜘蛛到互联网采集资料,在采集的时候主要是通过链接,还能扫描IP,即使网站没有主动提交也会被收录,具体收录速度,每个搜索引擎不一样,只要网站能打开,不管是临时域名还是正式域名,都会被收录,Google比较快,百度相对慢一些,一般做网站要现在本地测试(title,分类划分,修改模板),大致成型之后再搬到空间里,不要再刚搭建好网站就在空间里直接大改特改。采集是抓取的是HTML的源代码。爬行抓取的三个:新网站,已收录的页面如果更新会重新抓取搜集,已收录的页面如果不存在,搜索引擎会把其从数据库中删除。利用SITE命令查看收录量,收录数量有可能出现延迟,说明网站权重过低,抓取和放出来的速度不一样,等待一段时间,但只是第一次放出来的速度比较漫长。一般新站会出现此类问题。快照日期要越新越好,首页快照是最新的。如果网站内部快照日期也很新,说明网站内部结构好。SITE出来的结果,权重从高到低排列,第一位是首页,如果不是首页说明权重降了。还有一种比较严重的情况:网站有收录量但是没有快照日期,也就是表示没有首页快照,首页被百度删掉。只要有这种情况就说明网站被降权了。大概过半个月左右首页会重新被收录。百度快照链接表示搜索引擎可以抓取的内容有多少。百度快照链接---快速版,说明CSS对百度没有任何作用,搜索引擎只抓源文件,CSS样式文件不识别
抓取问题汇集
抓取层次(URL TABLE)三层以内,超过五层抓不到,table就不要用,淘汰了,out了!!!!!
为什么快照总更新首页:首页天生权重高,首页外链多。首页内容是更新最为频繁的,而且URL地址层次也比其他页面少,层次越深权重越低
为什么栏目也更新总比文章页快:栏目页外链比文章页多(指的不是站外的)
怎么才能让搜索引擎更新我的文章页快照:给文章页做外链,尤其是首页,分类页。不管页面内容是否变动,只要让搜索引擎经常光顾就会有快照更新
2.数据处理(预处理)
关键词提取(文字提取—分词处理—关键词提取):不同标签里的关键词权重不同,keywords和description权重低,body里面的关键词。
去除重复的页面:根据相似度去除,考察的是整个页面的相似度,即使文章内容一摸一样,也有机会被收录进去。但是要注意自身网站的分类页与分类页之间和文章页之间相似度不要过高,可以通过加文字的方式降低相似度,使其快速被收录。关于收录量浮动:比如收录量上千,但是第二天少了几十个,说明搜索引擎抓取了,但经过二次检查时发现相似度还是很高,所以又给删掉了,因此轻微浮动是正常的但不能急剧下降。
链接分析:计算链接权重,同一网站不同层级的页面权重更不一样,想让哪儿的权重高,就放到首页
网页的权重计算:转载的越多越好,流量,页面的存在时间,时间越久越好,尤其是老网站,老页面,看的是域名的资历,更新的内容是否足够,频率是否快,链入,PR值,专业性(关键词单一性)页面的内容是否围绕关键词展开,重要标签的使用,关键词的密度,信噪比,网页架构,网页层级(URL地址层次),代码的可识别性,尽量按照标准写代码,符合W3C标准,链接别名,文件形式,以xxxx.html结尾的单文件和http://www.XXXXX.com/XXX/目录级文件,目录文件权重高于单文件权重。对于整体网站而言:链接结构,内容结构,内部链接结构,代码结构体现在各个页面上,相似度,相关性
3.查询服务
查询方式和匹配:百度的方式:优先完整匹配,先调用数据库中符合用户搜索的完整匹配,然后再进行拆分,把用户搜索的词划分的更加详细,再进行匹配。当搜索要查询的词时,点击百度快照可以看百度分词的方式
结果排序---数据处理
文档摘要---一般用描述作为搜索结果的说明,如果没写,搜索引擎会自动截取说明,一般是导航条和底部的文字信息。即使写了description也不一定会显示为网站的说明,搜索引擎要看其是否符合网站内容
 
诊断方案,基本情况,收录排名,网站链接,网站关键词布局,meta是否合理,网站内容,代码诊断
 
标签:搜索引擎工作原理 本文链接:搜索引擎工作原理
分类:网站运营顾问| 发布:李辰| 查看: | 发表时间:2012/8/22
原创文章如转载,请注明转载自:李辰 http://www.lichen5.com/
上一篇:« B2C商城建设教程详解  下一篇:网站内容如何合理规划 »

相关文章

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。