如何屏蔽GPTBot抓取网站内容

GPTBot user-agent

可通过以下代码识别

1

2

3

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko;

compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBot的IP地址是多少

1

2

3

4

5

6

7

8

9

20.15.240.64/28

20.15.240.80/28

20.15.240.96/28

20.15.240.176/28

20.15.241.0/28

20.15.242.128/28

20.15.242.144/28

20.15.242.192/28

40.83.2.64/28

详情参考https://openai.com/gptbot-ranges.txt

如何禁止GPTBot访问

1、你可以通过robots.txt文件禁止 OpenAI 对自己的网站访问,不将自己的数据用来训练,代码如下。GPTBot会遵循robots协议,

1

2

User-agent: GPTBot

Disallow: / 

  你还可以通过以下代码,来控制 GPTBot 对网站部分内容的访问。

1

2

3

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

  

2、你也可以将以上ip段加入到防火墙来屏蔽GPTBot

3、将user-agent加入到防火墙

你可能感兴趣的