IDC资讯

质量为本、客户为根、勇于拼搏、务实创新

< 返回IDC资讯列表

怎么禁止网站内容被搜索引擎收录的几种方法

发布时间:2022-05-31

这篇文章是给大家分享几个关于如何禁止网站内容被搜索引擎收录的方法。桂哥网络觉得很实用,就分享给大家参考,跟着桂哥网络看了看。

通常做一个网站的目标是让搜索引擎收录,扩大推广。但是,如果你的网站涉及个人隐私或机密非公开页面,需要禁止搜索引擎收录和抓取,你该如何解决?比如淘宝,就是禁止搜索引擎收录的例子。这篇文章将教你几种方法来屏蔽或禁止搜索引擎包含爬行网站内容。

搜索引擎蜘蛛不断在网上爬行。如果我们的网站不禁止搜索引擎录音,很容易被搜索引擎录音。所以下面是如何禁止搜索引擎包含网站内容。

第一种、robots.txt方法

搜索引擎默认遵守robots.txt协议(不排除一些流氓引擎),创建robots.txt文本文件,放在网站根目录下。编辑代码如下:

用户代理: *

不允许: /

通过上面的代码,可以告诉搜索引擎不要抓取和收录这个网站,注意慎用上面的代码:这样会禁止所有搜索引擎访问网站的任何部分。

如果只禁止百度搜索引擎收录抓取网页

1.编辑robots.txt文件,设计标记为:

用户代理: Baiduspider

不允许: /

以上robots文件将实现禁止所有来自百度的抓取。

这里百度的用户代理和Baiduspider的用户代理是什么?

百度产品使用不同的用户代理:

对应于产品名称的用户代理

无线搜索Baiduspider

图片搜索Baiduspider-图片

视频搜索Baiduspider-视频

新闻搜索Baiduspider-新闻

百度搜索Baiduspider-favo

百度联盟Baiduspider-cpro

商业搜索Baiduspider-广告

网页和其他搜索

您可以根据每个产品的不同用户代理设置不同的爬网规则。以下机器人禁止百度所有抓取,但允许图片搜索抓取/图片/目录:

用户代理: Baiduspider

不允许: /

用户代理: Baiduspider-图像

Allow: /image/

请注意:Baiduspider-cpro和Baiduspider-ads抓取的网页不会被索引,只会执行与客户约定的操作,所以如果不符合robots协议,需要联系百度人解决这个问题。

如何只禁止Google搜索引擎收录抓取网页,方法如下:

编辑robots.txt文件,设计标记为:

User-agent: googlebot

不允许: /

第二种、网页代码方法

在主页代码head和/网站head之间添加meta name=' robots ' content=' no archive '代码。此标签禁止搜索引擎抓取网站和显示网页快照。

在首页代码head和/head之间添加meta name=' Baidu spider ' content=' noarchive ',防止百度搜索引擎抓取网站和显示网页快照。

在网站主页代码head和/head之间添加meta name=' googlebot ' content=' noarchive ',防止Google搜索引擎抓取网站和显示网页快照。

另外,当我们的需求很奇怪的时候,比如下面的情况:

1

. 网站已经加了robots.txt,还能在百度搜索出来?

因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是不是正确。如果您的拒绝被收录需求非常急迫,也可以通过投诉平台反馈请求处理。

2. 希望网站内容被百度索引但不被保存快照,我该怎么做?

Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

3. 希望被百度索引,但是不保存网站快照,如下代码解决:

<meta name="Baiduspider" content="noarchive">

4. 如果要禁止所有的搜索引擎保存你网页的快照,那么代码就是下面的:

<meta name="robots" content="noarchive">

下面列出一些常用的代码组合:

  • <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接

  • <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接

  • <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接

  • <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接

感谢各位的阅读!关于“怎么禁止网站内容被搜索引擎收录的几种方法”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!


TikTok千粉号购买平台:https://tiktokusername.com/