站点总是某个时间段莫名的cpu100%,资源占用也不高,这就有必要怀疑爬虫问题。

1. 使用"robots.txt"规范

在网站根目录新建空白文件,命名为"robots.txt",将下面内容保存即可。

2. 通过nginx

有些爬虫是不按规则出牌的,我们必须要能自己控制,将下面代码添加到"location / { }" 段里面,比如伪静态规则里面即可。

注意: ~ 为模糊匹配 ,~* 为 模糊匹配不区分大小写

测试一下:

返回 403 表示设置成功!


丶伊眸冷

静水流深,沧笙踏歌;三生阴晴圆缺,一朝悲欢离合。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

我不是机器人*