会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 如何避免网站page的页面被重复抓取

如何避免网站page的页面被重复抓取

时间:2011-12-22 17:02:55   作者:   来源:   点击:

不雅察阐发网站的日志,发现网站page的页面被蜘蛛重复抓取很多,这样子对网站的优化其实不是很好。那么我们要如何避免网站页面被蜘蛛重复的抓取呢?

一、通过robots文件来把这个页面来屏蔽失落,具体做法语法格局:

Disallow: /page/ #限制抓取Wordpress分页如查你的网站有需要也可以把下面的语句一并写上,避免呈现过量的重复页面。 * Disallow: /category/*/page/* #限制抓取分类的分页 * Disallow:/tag/ #限制抓取标签页面 * Disallow: */trackback/ #限制抓取Trackback内容 * Disallow:/category/* #限制抓取所有分类列表 什么是蜘蛛,也叫爬虫,其实是一段法度。这个法度的功能是,沿着你的网站的URL一层层的读取一些信息,做简单措置后,然后返馈给后台办事器进行集中措置。我们必须体会蜘蛛的喜好,对网站优化才能做到更好。接下来我们谈谈蜘蛛的工作过程。

2、蜘蛛遇到动态页面

蜘蛛在措置动态网页信息是面临的难题。动态网页,是指由法度自动生成的页面。现在互联网发财法度开辟脚本语言越来越多,自然开辟出来的动态网页类型也越来越多,如jsp、asp、php等等一些语言。蜘蛛很难措置这些脚本语言生成的网页。优化人员在优化的时候,总是强调尽可能不要采取JS代码,蜘蛛要完善措置这些语言,需要有自己的脚本法度。在进行网站优化,削减一些不需要的脚本代码,以便蜘蛛爬行抓取,少致使page页面的重复抓取!

三、蜘蛛的时间

网站的内容常常转变的,不是更新就是改模板。蜘蛛也是不竭地更新和抓取网页的内容,蜘蛛的开辟者会为爬虫设定一个更新周期,让其依照指定的时间去扫描网站,查看对比出哪些页面是需要进行更新工作的,诸如:主页的题目是否有更改,哪些页面是网站新增页面,哪些页面是已颠末时失效的死链接等等。一个功能强太的搜索引擎的更新周期是不竭优化的,因为搜索引擎的更新周期对搜索引擎搜索的查全率有很年夜影响。不过如果更新周期太长,便会使搜索引擎的搜索切确性和完整性下降,会有一些新生成的网页搜索不到;若更新周期太过于短,则手艺实现难度加年夜,并且会对带宽、办事器的资源造成华侈。

四、蜘蛛不重复抓取策略

网站的网页数量很是年夜,蜘蛛进行抓取是一个很年夜的工程,网页的抓取需要费很是多线路带宽、硬件资源、时间资源等等。如果常常对同一个网页重复抓取不单会年夜年夜的下降了系统的效率,还造成切确度不高档问题。通常的搜索引擎系统都设计了不重复进行网页抓取的策略,这是为了包管在一按时间段内只对同一个网页进行一次抓取。

关于如何避免网站page的页面被重复抓取就介绍到这里,文章由环球贸易网编辑。

分享到:

网友评论