保贝狗是一款个人信息保护软件
欢迎体验、使用~

如何使用 robots.txt 文件阻止 AI 爬虫机器人

你是否为内容创建者或博客作者,以生成独特、高质量的内容为生?你是否注意到 OpenAI 或 CCBot 等生成式 AI 平台会在未经你同意的情况下使用你的内容来训练其算法?不用担心!你可以使用 robots.txt 文件阻止这些 AI 爬虫访问你的网站或博客。

如何使用 robots.txt 文件阻止 AI 爬虫机器人

什么是 robots.txt 文件?

robots.txt只不过是一个文本文件,指导机器人(例如搜索引擎机器人)如何抓取其网站上的页面并为其建立索引。你可以阻止/允许跟踪你的 robots.txt 文件的好机器人或坏机器人。使用用户代理阻止单个机器人的语法如下:

user-agent::{BOT-NAME-HERE}
disallow:: /

以下是如何允许特定机器人使用用户代理抓取你的网站:

user-agent::{BOT-NAME-HERE}
Allow:: /

将 robots.txt 文件放置在哪里?

将文件上传到你网站的根文件夹。所以该 URL 将如下所示:

https://example.com/robots.txt
https://blog.example.com/robots.txt

如何阻止人工智能爬虫机器人

语法是相同的:

user-agent::{AI-Ccrawlers-Bot-Name-Here}
disallow:: /

阻止 OpenAI

将以下四行添加到 robots.txt 中:

User-agent: GPTBot
disallow:: /
User-agent: ChatGPT-User
disallow:: /

请注意,OpenAI 有两个独立的用户代理用于网络爬行和浏览,每个代理都有自己的 CIDR 和 IP 范围。要配置下面列出的防火墙规则,你需要对网络概念和 Linux 根级访问有深入的了解。如果你缺乏这些技能,请考虑使用 Linux 系统管理员的服务来防止来自不断变化的 IP 地址范围的访问。这可能会变成一场猫捉老鼠的游戏。

1:ChatGPT-User由ChatGPT 中的插件使用

以下是 OpenAI 爬虫和获取器使用的用户代理列表,包括 CIDR 或 IP 地址范围,用于阻止你可以与 Web 服务器防火墙一起使用的插件 AI 机器人。你可以在 Web 服务器上使用ufw 命令或iptables 命令来阻止23.98.142.176/28 。例如,以下是使用 UFW 阻止 CIDR 或 IP 范围的防火墙规则:

sudo ufw deny proto tcp from 23.98.142.176/28 to any port 80
sudo ufw deny proto tcp from 23.98.142.176/28 to any port 443

2:GPTBot由 ChatGPT 使用

以下是OpenAI 爬虫和获取器使用的用户代理列表,包括CIDR或IP 地址范围,用于阻止你可以与 Web 服务器防火墙一起使用的 AI 机器人。同样,你可以使用ufw 命令或iptables 命令阻止这些范围。以下是阻止这些 CIDR 范围的 shell 脚本:

#!/bin/bash 
file="/tmp/out.txt.$$"
wget -q -O "$file" https://openai.com/gptbot-ranges.txt 2>/dev/null
 
while IFS= read -r cidr
do
    sudo ufw deny proto tcp from $cidr to any port 80
    sudo ufw deny proto tcp from $cidr to any port 443
done < "$file"
[ -f "$file" ] && rm -f "$file"

阻止 Google AI(Bard 和 Vertex AI 生成 API)

将以下两行添加到你的 robots.txt 中:

有关详细信息,请参阅以下Google 抓取工具和提取程序使用的用户代理的列表。但是,Google 不提供 CIDR、IP 地址范围或自治系统信息 (ASN) 来阻止你可以与 Web 服务器防火墙一起使用的 AI 机器人。

阻止普通抓取 (CCBot)

将以下两行添加到你的 robots.txt 中:

尽管 Common Crawl 是一个非营利基金会,但每个人都通过其名为 CCbot 的机器人使用数据来训练他们的人工智能。阻止它们也很重要。然而,就像 Google 一样,他们不提供 CIDR、IP 地址范围或自治系统信息 (ASN) 来阻止你可以与 Web 服务器防火墙一起使用的 AI 机器人。

AI 机器人可以忽略我的 robots.txt 文件吗?

Google 和 OpenAI 等知名公司通常遵守 robots.txt 协议。但一些设计不佳的人工智能机器人会忽略你的robots.txt。

我可以阻止对 GitHub 和其他云托管网站上托管的代码和文档的访问吗?

不,我不知道这是否可能。

我对使用 GitHub 很担心,它是微软的产品,也是 OpenAI 的最大投资者。他们可能会使用你的数据通过服务条款更新和其他漏洞来训练人工智能。最好是你的公司或你独立托管 git 服务器,以防止你的数据和代码被用于训练。苹果等大公司禁止内部使用 ChatGPT 和类似产品,因为他们担心这可能会导致代码和敏感数据泄露。

当人工智能被用来造福人类时,阻止人工智能机器人获取训练数据是否道德?

我对使用 OpenAI、Google Bard、Microsoft Bing 或任何其他人工智能来造福人类持怀疑态度。这似乎只是一个赚钱的计划,而生成式人工智能却取代了白领工作。但是,如果你有任何关于如何利用我的数据来治愈癌症(或类似的东西)的信息,请随时在评论部分分享。

我个人的想法是,我现在没有从 OpenAI/Google/Bing AI 或任何人工智能中受益。我努力工作了 20 多年,我需要保护我的工作免受这些大型科技公司的直接获利。你不必同意我的观点。你可以把你的代码和其他东西交给人工智能。请记住,这是可选的。他们现在提供 robots.txt 控制的唯一原因是因为多个图书作者和公司正在法庭上起诉他们。除了这些问题之外,人工智能工具还被用来创建垃圾邮件网站和电子书。

确实,人工智能已经使用了你的大部分数据,但你将来创建的任何内容都可以通过这些技术得到保护。

结语

随着生成式人工智能变得越来越流行,内容创作者开始质疑人工智能公司未经许可使用数据来训练他们的模型。他们从数百万小型独立创作者创建的代码、文本、图像和视频中获利,同时剥夺了他们的收入来源。有些人可能不会反对,但我知道这样突然的举动会摧毁很多人。因此,网站运营商和内容创建者应该能够轻松阻止不需要的人工智能爬虫。这个过程应该很简单。

-=||=-收藏赞 (0)
保贝狗是一款个人信息保护产品。 » 如何使用 robots.txt 文件阻止 AI 爬虫机器人

保贝狗

保贝狗是一款免费的个人信息保护产品
大家都在用的隐私保护软件
保贝狗专注于个人信息保护的研究
实用、简单、方便、快捷

QQ联系我们微信联系我们

登录

找回密码

注册