当前位置：首页 > 搜索引擎 > 浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路

浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路

时间：2012-02-01 12:22:52 作者：来源：点击：

网站扶植好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。

比如，你要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想体例屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重，这必定是我们不想看到的成果。

以下枚举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，并且是尽可能的屏蔽失落所有主流搜索引擎的爬虫（蜘蛛）。

1、通过 robots.txt 文件屏蔽

可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎成立直接对话）。我通过阐发我自己博客的办事器日志文件，给出以下建议（同时欢迎网友弥补）：

User-agent: 百度spider

Disallow: /

User-agent: 谷歌bot

Disallow: /

User-agent: 谷歌bot-Mobile

Disallow: /

User-agent: 谷歌bot-Image

Disallow:/

User-agent: Mediapartners-谷歌

Disallow: /

User-agent: Adsbot-谷歌

Disallow: /

User-agent:Feedfetcher-谷歌

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加，添加如下语句：

3、通过办事器（如：Linux/nginx ）配置文件设置

直接过滤 spider/robots 的IP 段。

小注：第1招和第2招只对"正人"有效，避免"小人"要用到第3招（"正人"和"小人"别离泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不竭跟踪阐发日志，筛选出这些 badbot 的ip，然后屏蔽之。

这里有一个badbot ip 数据库：.spam-whackers/bad.bots.htm

4、通过搜索引擎提供的站长东西，删除网页快照

比如，有的时候百度不严格遵守 robots.txt 协议，可以通过百度提供的"网页投诉"入口删除网页快照。百度网页投诉中心：http://tousu.百度/webmaster/add

如下图是我的一个网页投诉：

年夜概3天左右的时间曩昔，这个网页的百度快照也被删除，说明此种体例也能起效，当然这是不得而为之，属于亡羊补牢。

5、弥补更新

可以通过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛拜候，然后直接返回403 状态码屏蔽之。比如：由于api 权限与微博信息隐私庇护原因，Xweibo 2.0 版本后制止搜索引擎收录。

关于如何屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页，您有其他什么更好的建议或体例，也欢迎颁发评论！期待与您交换。

本文作者：Bruce

原文地址：.wuzhisong/blog/67/

分享到：

阅读此篇文章的网友还阅读了：

2012-02-01谷歌社会化搜索对搜索引擎优化意味着什么？

2012-02-01从自身经历谈细心对搜索引擎优化优化的重要性

2012-02-01学习搜索引擎优化牛人的搜索引擎优化技能二：国平的可控

2012-02-01百度分享之搜索引擎优化应用

2012-02-01王通：从网络告白数据看搜索引擎优化机缘

2012-01-31二级目录如何措置对搜索引擎优化优化效果最好

2012-01-31重新手搜索引擎优化到垂垂推进蓄势待发之年

2012-01-30要命的外链为什么搜索引擎优化路越走越窄

2012-01-30搜索引擎优化三元素“链接布局内容”关系亲密解读

2012-01-30搜索引擎优化接单关头词优化报价必杀招

站长资源综合门户

浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路

阅读此篇文章的网友还阅读了：

网友评论

推荐搜索引擎

热门搜索引擎

随机搜索引擎