当前位置:网站首页 > 软件教程 > 正文

robots的几种作用介绍

作者:admin发布时间:2021-11-02分类:软件教程浏览:评论:0


导读: robots的几种作用:  1.屏蔽所有的搜索引擎抓取信息,如果你的网站只是你的私密性的网站,不想太多的人知道的话,可以利用robots屏蔽掉所有的搜索引擎,例如你写的私人博客。你就可以把搜索引擎全都屏蔽掉  User-agent:*  Disallow:/  2.如果你只想某一个

 robots的几类功效:

  1.屏蔽掉全部的百度爬取信息内容,假如你的网址仅仅你的私密的网址,不想的太多的人了解得话,能够运用robots屏蔽全部的百度搜索引擎,比如你写的个人blog。你也就能够把百度搜索引擎统统屏蔽
  User-agent: *
  Disallow: /
  2.假如你只想要某一个百度搜索引擎爬取你的信息内容,这个时候就可以用robots开展设定,比如:我只想一个网站被百度搜索这一百度收录,而不愿被其他百度搜索引擎百度收录。就可以运用robots开展设定
  User-agent: Baiduspider
  Allow:
  User-agent: *
  Disallow: /
  3.能够运用各种各样使用通配符对网络开展相对性应的配制,比如我不愿意网址爬取我的所有照片,这个时候就可以应用$来开展设定。一般大家常用的图片文件格式是BMP,JPG,GIF,JPEG等文件格式。这个时候设定便是:
  User-agent: *
  Disallow: /.bmp$
  Disallow: /.jpg$
  Disallow: /.gif$
  Disallow: /.jpeg$
  4.还能够运用*来屏蔽有关的URL,有一些网址不允许百度搜索引擎爬取动态性详细地址的过程中还可以运用这一*使用通配符来开展配对设定。一般状况下动态性URL的有一个特性便是有“?”这个时候大家就可以运用这一特点来开展配对的屏蔽掉:
  User-agent: *
  Disallow: /*?*
  5.假如网站改版升级了,全部文件夹名称都没了的情况下,这一状况下就需要考虑到屏蔽全部文件夹名称。我们可以应用robots来对这全部的文件夹名称开展屏蔽掉,比如网址里的ab文件夹因重做统统给删除了,这个时候就可以这样子设定:
  User-agent: *
  Disallow: /ab/
  6.假如网址里有一个文件夹名称不愿被百度收录,可是在这个文件夹名称里边有一个信息内容是容许被百度收录。那能够应用robots的allow开展设定。比如我网址里ab文件夹不允许百度搜索引擎爬取,可是在ab文件夹里边又有一个信息内容cd是容许被调用的,这个时候就可以应用robots开展设定:
  User-agent: *
  Disallow: /ab/
  Allow:/ab/cd
  7.能够在robots里定义出sitmap的部位,有益于网址的百度收录。
  sitemap:<sitmap的部位>
  8.有的情况你能发觉一个网站里设定了robots可是还发觉其百度收录了这一URL详细地址,这一的主要原因是由于这一百度搜索引擎的搜索引擎蜘蛛是利用URL爬取到网页页面的一般 google爬取这样子的URL的情况下不是带title与叙述的,可是百度搜索爬取这一URL会携带title与叙述,因此 有很多有些人要说我设定了 robots可是都没有实际效果。具体情况是爬取了这一连接而沒有百度收录一个网页页面內容。

标签:robots


欢迎 发表评论: