URL的地位在搜索引擎优化的过程中很是重要,也是搜索引擎优化er所面临的一个根基问题,我们在以前的很多文章中都多次提到一个不雅点:
搜索引擎优化的流量产生于你排名比较好的页面,而这些页面有排名的前提是被搜索引擎收录。
我们知道网络世界越来越庞年夜,内容的产生几近可以说是无穷无尽的,这对资源有限的搜索引擎而言,它们可以做的只能是尽可能快地收录新内容,所以说,网络中新内容的产生 > 被抓取收录的内容。而URL跟搜索引擎的关系,举个形象的例子,就仿佛你的地址跟速递员之间的关系,一个准确的以及便于查找的地址,将很年夜水平上提高速递员的投递。
那么搜索引擎在抓取页面过程中,会遇到什么问题呢?
一:URL的重复性。
请不要疏忽这一点,要讲的内容可能跟你想象中的不一样。我们假定有以下两个URL
.xxx/搜索引擎优化/888 .xxx/搜索引擎优化.asp?id=888
这两个页面产生的内容是一样的,前者多是伪静态,也多是真实的静态页面,但似乎前者比后者更好。但事实并不是如此,首页,这两个URL的格局都是容易被抓取和收录的,我们很多时候之所以不消?这种动态的引入体例,就是为了避免可能产生的年夜量重复内容。可是前者这种模式同样可能产生年夜量的重复内容,比如搜索引擎可能会误以为这个888只是一个SessionID,在无法做到准确判断的情况下,前者这种模式的优势其实不明显。
可能有些人不太明白这段话了,首先要把URL和内容分隔来,在理解上述话的时候,我们先简单说下搜索引擎对重复性内容的判断:搜索引擎自己有个强年夜的数据库存放已经抓取进来的内容,判断一个内容是否有相似的,最佳做法是把行将抓取的内容跟数据库已有的内容做比较,但通过阅读《谷歌网站质量指南》,我们发现这是个理解误区,反过来想下,这种在抓取的时候就进行内容对比的手艺手段可行性也其实不强,因为内容太庞年夜了。所以搜索引擎对抓取的URL阐发就相当重视,我们要让搜索引擎认为我们的URL对应的内容在站内是不重复的,最佳的做法当然仍是静态化URL,让搜索引擎认为网站自己的确有很多不合的内容,针对这种情况,最佳的URL写法应该是:
.xxx/搜索引擎优化/搜索引擎优化-url
归根结底,就是包管URL的唯一性以及不和其他一些情况混合失落。
二:“无限空间”(无限循环)
现在绝年夜大都博客上城市有一个日历控件,就是不管你点击哪个时间段,城市呈现一个页面,既然找不到对应的内容,但产生的URL都是唯一的,这样一来,就形成无限空间的概念了,因为时间是无止境的,所以产生的页面也是无穷的,对搜索引擎而言,这个是很是不友好的。
可以操纵nofollw属性做到有效的引导便可避免这种情况,相关文章:.admin5/article/20120312/414377.shtml
三:层级要适合逻辑。
我们阐发以下几个页面:
1、.xxx/搜索引擎优化/
2、.xxx/搜索引擎优化/url
3、.xxx/搜索引擎优化/url/weiyi
如果说搜索引擎今天只能抓取其中一个的话,那从优先级上解缆,它是先抓取第1个,那么这时又产生一个误区,如果我把页面都放在根目录下,就不存在条理的优先级了,如果条理优先级没区别,搜索引擎会进行同目录下的URL的优化比较,这也是为什么收录的时候会先抓取网站首页。所以最好的体例就是依照业务逻辑来成立子目录,内容跟内容之间的附属关系是怎么样的,在URL就用条理优化级体例来打算。
四:重复内容的措置。
上图是我从某知名网购平台上搜索笔记本时出来的筛选条件,我们做个数据阐发,在这个页面中,品牌为16个,代价条件为5个,措置器为8个,屏幕尺寸为8个,硬盘容易条件为6,内存为6个,硬盘为6个,显卡条件为6个,那么最多产生的搜索条件成果有:
16*5*8*8*6*6*6*6=6220800
而我们看上图显示的产品为2471个,所以显然重复性的内容是很是多的,这里举的例子还不是很是庞年夜的数据,有些网站可以组合成几亿甚至几百亿的页面出来。有兴趣的朋友可以看下我之前写的ASP等动态语言网站在做搜索引擎优化时,站内搜索应该注意的问题。