周二故障致其暂时下线，公司对此作出解释

2025-11-19

新闻要点

周二 Cloudflare 发生自 2019 年以来最严重故障致众多网站断网数小时，当晚其联合创始人兼首席执行官发文解释，故障源于 Bot 管理系统权限问题，非网络攻击等，目前已列出四项防止此类问题再次发生的计划。

- Cloudflare 周二发生严重故障众多网站受影响

- 故障源于 Bot 管理系统非网络攻击

- 列出四项计划防止类似问题再发生

主要内容

周二晚间，Cloudflare 联合创始人兼 CEO 马修·普林斯（Matthew Prince）发布的一篇博客文章详细介绍了导致其“自 2019 年以来最严重的中断”的原因。问题归咎于 Bot Management 系统中的一个问题，该系统本应控制哪些自动化爬虫被允许使用其内容分发网络（CDN）扫描特定网站。Cloudflare 去年表示，约 20%的网络通过其网络运行，旨在分担负载，以在流量高峰和 DDoS 攻击时保持网站在线。但今天的崩溃使许多网站中断，导致从 X 到 ChatGPT 再到知名的中断跟踪器 Downdetector 数小时无法使用，类似于最近微软 Azure 和亚马逊网络服务出现问题导致的中断。

Cloudflare 的机器人控制本应帮助处理诸如爬虫抓取信息以训练生成式 AI 等问题。它还最近宣布了一个使用生成式 AI 构建“AI 迷宫”的系统，这是一种新的缓解方法，使用 AI 生成的内容来减缓、迷惑和浪费不尊重“禁止爬取”指令的 AI 爬虫和其他机器人的资源。然而，它表示今天的问题是由于数据库权限系统的更改，而不是生成式 AI 技术、DNS 或 Cloudflare 最初怀疑的网络攻击或恶意活动，如“超大规模 DDoS 攻击”。

据普林斯称，Bot Management 背后的机器学习模型为通过其网络传输的请求生成机器人分数，该模型有一个经常更新的配置文件，有助于识别自动化请求；然而，“我们生成此文件的底层 ClickHouse 查询行为的变化导致它有大量重复的‘特征’行。”博客文章中详细介绍了接下来发生的事情，但查询更改导致其 ClickHouse 数据库生成信息重复。随着配置文件迅速增长超过预设内存限制，它关闭了“为我们的客户处理流量处理的核心代理系统，对于任何依赖机器人模块的流量。”结果，使用 Cloudflare 规则阻止某些机器人的公司返回了误报并切断了真实流量，而在其规则中未使用生成的机器人分数的 Cloudflare 客户仍在线。目前，它列出了四个具体计划，以防止此类问题再次发生，即使互联网服务的日益集中可能使这些中断不可避免：

周二故障致其暂时下线，公司对此作出解释

新闻要点

主要内容

关于我们