发表评论|加入收藏|保存到桌面|反馈报错您当前的位置:首页 > 国内电视台 > 江苏电视台 > 常州新闻综合在线直播

robot.txt(robot.txt的作用)

发布时间:2022-05-15 12:23:58   作者:脾气很大   来源:网友分享   我要投稿

301重定向:网址重定向最为可行的一种办法。当用户或搜索引擎向网站服务器发出浏览请求时,服务器返回的HTTP 数据流中头信息(header)中的状态码的一种,表示本网页永久性转移到另一个地址。404:404页面就是当用户输入找不着链接的网址,返回找不着内容的页面。

Alt :展示给终端用户的图片的描述. 加入Alt Tag 后,如果图片没有显示,浏览器就会在本来图片的位子用文字的方式显示Alt Tag 的内容,来帮助浏览者浏览网页。

back link :反向链接,链接到网站地址的网页。如果B 网站指向A 网站,那么B 网站就是A 网站的反向链接。

拔毛:俗语被K ,在搜索引擎中找不到网站收录的信息。black hat :黑帽。简单的讲就是SEO 作弊。

bounce rate :跳出率,当一个用户进入一个网页,接着在一个会话时间内没有看过该站其他的页面就离开了该网站,就被称作Bounce 。Bounce Rate 越低越好,说明用户访问了更多的页面。

bread crumbs :面包屑,又称位置导航。“面包屑型”架构方便用户了解当前页面在网站的层次结构。

Directory :目录是由人为编辑的搜索结果。大多数目录依靠的是人为提交而不是爬行器。

Dmoz :(OpenDirectory Project) ,简称ODP ,多语种开放编辑公益性互联网网站目录。

Doorway Page :\" 门页/桥页\" ,这些页面都指向你站点的主要页面,同时每个“桥页”还专门针对某一个搜索引擎做了优化,以保证能迎合该搜索引擎的一些特别要求(算法)而在该引擎中获得高的排名。duplicate content :\" 重复内容\" 是一个页面的内容和互联网中另一个页面相同或非常相似.

Google dance :Google 跳舞。由于Google 数据库或算法引起的搜索引擎结果页面的大幅变动,或者,当Google 索引更新的时候,不同数据中心数据不一致也会导致搜索结果的变动。

in bound link :(inlink,incoming link) 可直译为“来自外部网站的链接”,也即导入链接,也就是我们通常所说的一个网站“被其他网站链接的数量”。

indexed Pages :\" 索引页\" 就是被搜索引擎索引的页面。

keyword density :关键字密度。是一个网页中目标关键字所占的比率。keyword spam :(keywordstuffing) 关键字堆砌。为了提升目标关键字排名增加关键字的密度。

landing page :登陆页面。是指用户在搜索引擎结果页里点击进入的页面。

link bait :链接诱饵。是指一个网页通过特殊定位和布局来吸引反向链接。

link exchange :交换链接。是指互惠链接的建立, 通常把它说为\" 友情链接\" 。

link popularity :链接广度。是指一个站点外部链接的多少。

link text :(Anchortext) 链接文本,锚文本。是指用户能看见的一个链接。搜索引擎通过链接文本来判断被链接的站点是什么内容. 一般都将关键字设为锚文本.

long tail :长尾词比一般的搜索字符串要长。比如\" 旅游\" 是广泛词,而\" 北京旅游指南\" 就是一个长尾短语,而大多数用户都是使用长尾短语的。

META :定义描述网页参数\属性的代码。主要包括title 、keywords 、description 字段。

mirror site :镜像站点。是指在不同的域名下找到相同的网站, 一般被视为作弊手段。

nofollow :链接的一个属性,它能使搜索引擎蜘蛛忽略这些页面的一部分链接。一般博客评论下都有Nofollow 属性。此类外部链接对SEO 无用。

Noindex :禁止索引是指在一个网页的head 部分有一个禁止索引的命令,它能告诉搜索引擎不要索引当前这个页面。

Pagerank :(PR)网页级别是Google 衡量网页重要性的工具,测量值范围为从1至10分别表示某网页的重要性。新网站的pr 为0,一般pr 每3个月更新一次。

Redirect :重定向是指当你打开一个页面, 它自动跳转到另外一个域名或地址.

regional long tail :(RLT)地域性长尾短语是指带地区名称的长尾短语. 比如\" 北京旅游指南\" 这个短语就是地域性长尾短语。

robots.txt :机器人文件是指在网站根目录下的一个文件, 通过书写的一些代码, 能控制搜索引擎蜘蛛的抓取行为. 通过它我们能让搜索引擎禁止或者快速抓取我们的网站。

Sandbox :沙盒是指google 会把所有的新站放入沙盒,并且不给于好的排名,直到这个网站通过google 的考察期。

SEM :(searchengine marketing) 搜索引擎营销只要包括两点,一个是SEO 搜索引擎优化服务,另一个是付费SEM 搜索引擎营销,比如PPC 、竞价等。

SEO :(searchengine optimization) 搜索引擎优化就是通过对网站的关键词、内链、外链等优化,使搜索引擎更容易搜索网站的内容,并且让网站的各个网页在搜索引擎中获得较高的评分,从而获得较好的排名。

SERP :(SearchEngine Results Page) 搜索引擎结果页是指用户在搜索引擎上搜索某一关键字而出现的结果页面。

Sitemap :网站地图是一个拥有网站所有或部分重要链接的页面,xml 类型的网站地图是提交给google 的。它能帮助网站更快的被搜索引擎收录。

spider :(bot,crawler) 搜索引擎蜘蛛是搜索引擎用来增加网页数据库的一个特殊机器人。

static page :静态页面是指在网址URL 中没有任何变量和参数, 静态页面往往对搜索引擎蜘蛛是最友好的。

supplemental index :(supplementalresults) 补充材料是Google 辅助索引的一部分。对辅助索引进行抓取的限制少于主要索引。

text link :文字链接是指以文本形式的连接, 它不包括图片或java script 等。

TITLE :定义网页的标题。

降权:在搜索引擎中搜索特定关键词找不着网站信息,网页内容靠后。通常是由于优化过度或不符合搜索引擎规范造成的搜索引擎惩罚。white hat :白帽是SEO 的正规技术,它于黑帽正好相反。

楼主的问题略为模糊,下面简单总结了 一下搜索引擎优化,你在从事SEO的时候,可能会遇到的一些名词,并给了简单的解释:

SEOER:从事SEO工作的人员.

SEM:(SearchEngineMarketing)搜索引擎营销.

SPAM:在搜索引擎专门针对搜索引擎而采用的欺骗信息.

SERP:(SERP)在搜索引擎关键词查询,搜索引擎对搜索请求反馈的网页排序结果。

PPC:(PayPerClick)根据用户的点击,所付费广告.

Spider:搜索引擎蜘蛛,用来抓取网页数据的机器程序.

robot.txt:网页根目录的纯文本robots.txt文件,定义搜索引擎抓取.

Dmoz:(OpenDirectoryProject)简称ODP,多语种开放编辑公益性互联网网站目录.

HTML:(HyperTextMark-upLanguage)基于网站设计的一种基本超文本标记语言.

Javascript()方便解决服务器终端语言,与网页代码有交互使用。

404:404页面就是当用户输入找不着链接的网址,返回找不着内容的页面。

UE:(UserExperience)缩写为UE,或者UX。用户体验,意义在于以人为本.

UED:(userexperiencedesign)用户体验设计.

META:定义描述网页参数属性的代码.

pv:(pageview)页面浏览量点击量.

PR:(PageRank)由Google搜索来标识网页的等级/重要性的一种级别,分1到10级.

IP:(InternetProtocol)网络之间互连的协议,用于计算机相互连接进行通信网络而设计的协议.

TITLE:定义网页的标题.

INDEX:互联网网站默认的主页(首页).

WEB:网站的代称.

Sitemap:即网站地图,用于方便搜索引擎抓取,用户索引的文件.

HTTP:(HypertextTransferProtocol)超文本传输协议,网络浏览网页的一种传输协议。

FTP:(FileTransferProtocol)网络文件双向传输协议.

W3C:(WorldWideWebConsortium)W3C组织对网络标准制定一种协议。

MSTSC:(Microsoftterminalservicesclient),客户站与服务器端,远程桌面操作协议,命令.

Adwords:Google关键词竞价广告“赞助商链接”,俗称“Google右侧广告”。

竞价排名:搜索引擎公司所推出的一种按付费关键词推广的一种方式.

DIV:一种以标签的行式,提供网页内容与结构等样式的标签.

CSS:(CascadingStyleSheets)层叠样式表,一种标记语言,它不需要编译,可以直接由浏览器执行,用于更好的设计网页.

ASP:(ActiveServerPage),微软公司开发用于服务器运行的交互语言。

PHP:(HypertextPreprocessor)嵌式html的语言,用于服务器运行的交互语言。

排名算法(Rankingalgorithm)分析搜索引擎用来对其索引中的列表分析与排名的规则.

关键词:搜索引擎中相关词语的一种排列顺序。

反向链接:链接到网站地址的网页.

拔毛:俗语被K,在搜索引擎中找不到网站收录的信息.

降权:在搜索引擎中搜索特定关键词找不着网站信息,网页内容靠后.

人肉搜索:人肉搜索就是利用现代信息科技,通过网络信息搜索为人找人、人问人、人碰人、人挤人、人挨人的关系型网络社会活动.

ROI:投资回报率

  robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,想要网站被收录,必须要些robots.txt

  准备一个域名,空间。域名就是大家所谓的网址,空间就是这个网站所存储的地方。

  域名准备好之后就开始建站了,建完站首先要分析要不要被搜索引擎抓取页面然后展现。这个时候就要开始些robots文件了。举例来说,当spider访问一个网站(比如http://mip.shenbaiyi)时,首先会检查该网站中是否存在http://mip.shenbaiyi/robots.txt这个文件,如果robots禁止搜索引擎抓取的话,那么搜索引擎就不会对网站进行索引并展现

  那么怎么样能不让搜索引擎抓取呢?又怎么能让搜索引擎抓取呢?那么就要说下Disallow和Allow这两个命令的用法了。首先User-agent是代表搜索引擎能否抓取页面的开始。下面就是Disallow和Allow的选择了。详细的写法如下

  robots.txt文件用法举例:

  1. 允许所有的robot访问

  User-agent: * Allow: / 或者 User-agent: * Disallow:

  2. 禁止所有搜索引擎访问网站的任何部分

  User-agent: *

  Disallow: /

  3. 仅禁止Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow: /

  4. 仅允许Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow:

  5. 禁止spider访问特定目录

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  6. 允许访问特定目录中的部分url

  User-agent: *

  Allow: /cgi-bin/see

  Allow: /tmp/hi

  Allow: /~joe/look

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  7. 使用”*”限制访问url

  禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

  User-agent: *

  Disallow: /cgi-bin/*.htm

  8. 使用”$”限制访问url

  仅允许访问以”.htm”为后缀的URL。

  User-agent: *

  Allow: .htm$

  Disallow: /

  例9. 禁止访问网站中所有的动态页面

  User-agent: *

  Disallow: /*?*

  10. 禁止Baiduspider抓取网站上所有图片

  仅允许抓取网页,禁止抓取任何图片。

  User-agent: Baiduspider

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  6通常的robots写法就是上面的10种了,如果还有其他写法,后续会给大家详细的介绍

提示:本文所有内容仅供娱乐参考,仅代表作者本人观点、个人爱好分析,不作为任何投资依据,不承担法律责任。本站不对信息的真实性、准确性负责。
标签: