标签归档:robots

关于网站robots.txt文件那些事情

做网站优化的人都知道,robots.txt文件是告诉搜索引擎,那些可以抓取,那些不能抓取,今天,我们来系统讲讲robots.txt文件那些事情。

如何通过Robots协议屏蔽搜索引擎抓取网站内容?

Robots协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。避免出现网站被爬虫访问,导致耗费大量流量和宽带的问题。

robots.txt文件的参数配置说明

如果有些网站页面访问消耗性能比较高,不希望被搜索引擎抓取,您可以在站点根目录下存放robots.txt文件,屏蔽搜索引擎或者设置搜索引擎可以抓取文件的范围以及规则

robots.txt文件的参数配置说明如下:

Robots协议不是强制协议,通过robots.txt文件能够保护您的一些文件不暴露在搜索引擎之下,从而有效地控制爬虫的抓取路径。但是,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下处理方法无效。

关于网站robots.txt文件那些事情
关于网站robots.txt文件那些事情

操作示例

本部分以下面场景为例,为您展示通过Robots协议屏蔽搜索引擎抓取网站内容的方法,操作示例如下所示。

示例一:执行以下命令,禁止所有搜索引擎访问网站的任何资源。

User-agent: *
Disallow: /

示例二:执行以下命令,允许所有搜索引擎访问任何资源。

User-agent: *
Allow: /

说明:您也可以建一个/robots.txt空文件,将Allow的值设置为/robots.txt。

示例三:执行以下命令,禁止某个搜索引擎(例如Google)访问网站。

User-agent: Googlebot
Disallow: /

示例四:执行以下命令,允许某个搜索引擎(例如Baidu)访问网站。

User-agent: Baiduspider
allow: /

示例五:执行以下命令,禁止所有搜索引擎访问特定目录。

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/

示例六:执行以下命令,允许访问特定目录中的部分URL,实现a目录下只有b.htm允许访问。

User-agent: *
Allow: /a/b.htm
Disallow: /a/

关于关于网站robots.txt文件那些事情,我们就简单介绍这些,希望对你有帮助。

为什么robots禁止抓取了但搜索引擎还会抓取

为什么robots禁止抓取了但搜索引擎还会抓取?严格来说robots限制蜘蛛抓取,搜索引擎也是会遵循这个规则的,现在百度搜索引擎对于robots的态度是,依然会抓取,但是不会保留百度快照。其他搜索引擎基本也是同样的。

为什么robots禁止抓取了但搜索引擎还会抓取
为什么robots禁止抓取了但搜索引擎还会抓取

在百度百科里面有这么一条:robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

设置robots禁止抓取主要是基于两个原因:第一个是新站调试期间,不想让搜索引擎抓取;第二个就是网站下某些目录页面,不想被搜索引擎抓取。对于第一种,如果完全不想让搜索引擎抓取,你建议在本地测试,或者是采用其他的域名绑定线上测试,测试没有问题之后再绑定目标域名。

至于第二种,其实是没有办法的,因为如果搜索引擎不按照robots规则,那我们似乎也没有什么好的办法阻止,如果搜索引擎收录了这些限制抓取的页面,只能去投诉快照了。

但是大家也要注意,搜索引擎抓取robots文件限制的页面,这对于网站来说并不会造成很大的影响。原则上说这不会浪费抓取份额,除了网站首页以后,也很少发现会收录robots限制抓取的内页。所以,大家也不要太过担心,搜索引擎想抓就让它去抓,如果收录了,就去投诉申请删除。

另外有朋友担心安全的问题,搜索引擎蜘蛛只是一个工具,它本身是没有恶意的,只是会按照规则去工作。大家也不要把搜索引擎想得那么坏,如果网站没有敏感的内容,在不影响到网站优化的情况下,让蜘蛛去抓取也没有什么损失。大家莫要惊慌哦!

关于为什么robots禁止抓取了但搜索引擎还会抓取的问题,本文就简单的说这么多。总之来说,理论上搜索引擎还是会遵循robots规则的,不会胡乱收录这些禁止收录的页面。

网站一定要添加robots文件吗

网站一定要添加robots文件吗?robots文件的作用是告诉搜索引擎,网站有哪些文件和页面是可以抓取的,哪些是不允许抓取的。通常搜索引擎都会遵守robots协议。

网站一定要添加robots文件吗
网站一定要添加robots文件吗

所以,对于网站来说尽量添加robots文件,因为网站少不了有js及css文件,还有就是网站的后台链接等,这些都不需要被索引,我们可以通过设置robots文件来禁止搜索引擎抓取,从而节省了蜘蛛抓取的份额。

另外大家要注意,搜索引擎抓取网站的时候,首先会去看网站是否有robots文件。相关案例显示,如果网站设置了robots文件,并且允许抓取的话,网站收录比没有设置robots文件的要快。

所以大家尽量都是添加下robots文件,这对网站来说百利而无一害,当然大家要注意robots的写法,不要设置错误导致某些页面不能被抓取到。

关于robots文件的问题,笔者就简要的说这么多。总之来说,不管是什么类型的网站,都尽量去添加robots文件,通过robots文件可以引导蜘蛛抓取,从而对网站优化有帮助。

robots需要禁止后台目录吗

robots需要禁止后台目录吗?在设置robots的时候不太确定是否要禁止后台目录,是否需要禁止呢?

robots需要禁止后台目录吗
robots需要禁止后台目录吗

要知道这个问题,首先得搞清楚robots的意思和作用,robots的作用主要是告诉搜索引擎哪些页面可以抓取收录,哪些页面不要抓取收录。

对于网站后台,显然是不需要搜索引擎抓取和收录的,所以可以在robots设置禁止对网站后台的抓取。

通常来说,只要能打开的页面链接搜索引擎蜘蛛都会去抓取,而蜘蛛抓取对于单个网站来说是有配额的,如果抓取后台的次数多了,就浪费了对其他有用页面的抓取,从这个方面来说,后台的页面也是需要禁止抓取的。

关于robots是否需要禁止后台目录的问题,笔者就简要的说这么多。总之来说,这个问题很简单。因为网站后台对于普通用户来说没有意义,为了解决蜘蛛抓取次数,所以应该禁止搜索引擎对网站后台的抓取。

robots屏蔽404页面对排名有影响吗

robots屏蔽404页面对排名有影响吗?robots屏蔽404页面对排名是没有影响的,原则上搜索引擎会严格遵循规则,robots文件屏蔽了页面不会再去抓取。

robots屏蔽404页面对排名有影响吗
robots屏蔽404页面对排名有影响吗

另外,robots屏蔽404页面跟关键词排名没有联系,所以请放心。

网站由于各种原因可能会出现404页面,如果404页面的数量比较多,那就想要汇集起来去提交死链。通常搜索引擎对于死链的处理速度还是挺快的,只要处理得及时,基本不会影响到排名。

但如果网站本身有大量的404页面,但有没有处理,那就会对给网站有不好的影响了。

而robots文件只是告诉搜索引擎哪些页面不要去抓取,原则上robots文件里面不需要再屏蔽404页面的,当然如果做了也不会有啥不好的影响。

总之来说,robots文件是否屏蔽404页面都不会影响到网站的排名。但切记,如果网站出现了大量的404页面,一定要及时处理!

修改ROBOTS.txt会影响蜘蛛爬取吗

修改网站的robots.txt是否会影响蜘蛛爬取?通常情况下搜索引擎会遵守robots文件,如果我们在robots.txt文件里面对某些页面做了限制,那么搜索引擎蜘蛛是不会去抓取的,也就是说robots.txt文件会影响到蜘蛛抓取。对于robots.txt和蜘蛛爬取,有以下两个方面的问题大家需要注意。

修改ROBOTS.txt会影响蜘蛛爬取吗
修改ROBOTS.txt会影响蜘蛛爬取吗

一、robots.txt限制整站抓取,搜索引擎还是会收录首页

很多朋友提到明明自己的网站,在robots.txt文件里限制了所有搜索引擎蜘蛛抓取,但是百度还是收录了首页。这种情况是正常的,但是大家要注意的是,虽然蜘蛛抓取了页面,也收录了,但是百度快照里面是没有内容的,如果我们去点击百度快照,会跳转至百度搜索资源平台。也就是说,虽然蜘蛛抓取了,但是并没有保存页面文件。

二、搜索引擎蜘蛛对robots.txt有反应时间

我们在正式开放蜘蛛抓取之前,通常会设置robots.txt文件,限制所有搜索引擎蜘蛛抓取。但是有朋友反映,在放开了robots.txt文件限制以后,蜘蛛还是不过来抓取,这其实就是搜索引擎蜘蛛对robots.txt文件的反应需要时间,这个时间通常是一个星期以内。

我们再回到robots.txt和蜘蛛爬取上面来,总体上搜索引擎蜘蛛会严格遵守robots.txt文件协议,对于robots.txt文件限制的页面,蜘蛛不糊去抓取。

所有对于那些没有搜索需求的页面,我们可以在robots.txt文件里面进行设置,这样就可以集中抓取频次和防止权重分散。当然,我们可以把robots.txt文件和nofollow标签结合起来使用。

另外大家要注意蜘蛛对robots.txt文件的反映时间,不要因为几天蜘蛛没有来抓取,就怀疑是网站其他地方出现了问题,应该耐心等待。

关于robots.txt和蜘蛛爬取的问题,笔者在本文简要的给大家做了说明。总之来说,修改网站的robots.txt会影响蜘蛛爬取,至于是减少抓取量还是增加抓取量,这需要具体分析对robots.txt做了怎样的修改。

另外robots.txt里面还可以设置网站地图,这对于网站页面收录有帮助。

robots.txt文件放在哪里

robots.txt文件放在哪里?之前网站没有设置robots.txt文件,听大神说这个robots.txt文件很重要,所以就做了一个,但是不知道robots.txt文件应该放在哪个位置。

robots.txt文件放在哪里
robots.txt文件放在哪里

robots.txt文件应该放在网站的根目录。如果大家对于根目录不太理解,那么就可以根据URL来判断,比如说网站域名为www.webziv.com,那么robots文件打开的URL链接应该是www.webziv.com/robots.txt这样。

其实这个问题直接让技术去处理就行了,如果实在没有技术,那就去看下网站程序的安装目录是哪个,通常来说网站程序源文件的哪个文件夹,就是放置robots.txt文件的地方,这里也就是网站根目录。

网站误封了robots怎么办

网站误封了robots怎么办?以下是百度搜索官方回答。

网站误封了robots怎么办
网站误封了robots怎么办

1、修改robots封禁为允许,然后到百度搜索资源平台检测并更新robots。

2、在百度搜索资源平台抓取检测,此时显示抓取失败,没关系,多点击抓取几次,触发蜘蛛抓取站点。

3、在百度搜索资源平台后台抓取频次,申请抓取频次上调。

4、前往平台反馈中心,反馈是因为误操作导致了这种情况的发生。

5、通过百度搜索资源平台主动提交资源,加快百度的抓取速度。

以上就是百度搜索对于网站误封了robots的操作建议。在这里简单说下自己的看法,有些细节可能是很多朋友没有注意到的,这里可以参考:

1、要养成检查robots文件的习惯,尽量避免出现问题。

2、如果robots出现了问题,在修改完成后记得去百度搜索资源平台进行提交更新。

3、百度搜索对于robots的反应可能不会及时,大家要做好思想准备,多提交几次。

4、向百度反馈,这种方式可能有很多朋友会忽略!

5、申请抓取频次上调,这个之前子午SEO也没有太过注意,既然百度方面都这么说了,大家可以试试。

6、主动提交资源,大家不要以为robots有问题就不主动提交,在修改robots之后再主动提交,有利于蜘蛛快速做出响应。这个问题相信很多朋友也会忽略,因为都认为蜘蛛不会来抓取!

本文重点介绍了网站robots操作失误应该怎么处理。给出了百度搜索方面的专业回答,同时也简单提醒了几个方面。

robots对于网站的影响很大,在网站正式上线之前,请大家务必要去检查robots是否有设置上的错误,一经发现及时改正。如果因为疏忽导致robots错误,也不要惊慌,及时去解决即可!