周二故障致其暂时下线,公司对此作出解释 - AI News
周二故障致其暂时下线,公司对此作出解释

周二故障致其暂时下线,公司对此作出解释

2025-11-19

新闻要点

周二 Cloudflare 发生自 2019 年以来最严重故障致众多网站断网数小时 ,当晚其联合创始人兼首席执行官发文解释,故障源于 Bot 管理系统权限问题,非网络攻击等,目前已列出四项防止此类问题再次发生的计划。

- Cloudflare 周二发生严重故障 众多网站受影响

- 故障源于 Bot 管理系统 非网络攻击

- 列出四项计划 防止类似问题再发生

主要内容

周二晚间,Cloudflare 联合创始人兼 CEO 马修·普林斯(Matthew Prince)发布的一篇博客文章详细介绍了导致其“自 2019 年以来最严重的中断”的原因。问题归咎于 Bot Management 系统中的一个问题,该系统本应控制哪些自动化爬虫被允许使用其内容分发网络(CDN)扫描特定网站。Cloudflare 去年表示,约 20%的网络通过其网络运行,旨在分担负载,以在流量高峰和 DDoS 攻击时保持网站在线。但今天的崩溃使许多网站中断,导致从 X 到 ChatGPT 再到知名的中断跟踪器 Downdetector 数小时无法使用,类似于最近微软 Azure 和亚马逊网络服务出现问题导致的中断。

Cloudflare 的机器人控制本应帮助处理诸如爬虫抓取信息以训练生成式 AI 等问题。它还最近宣布了一个使用生成式 AI 构建“AI 迷宫”的系统,这是一种新的缓解方法,使用 AI 生成的内容来减缓、迷惑和浪费不尊重“禁止爬取”指令的 AI 爬虫和其他机器人的资源。然而,它表示今天的问题是由于数据库权限系统的更改,而不是生成式 AI 技术、DNS 或 Cloudflare 最初怀疑的网络攻击或恶意活动,如“超大规模 DDoS 攻击”。

据普林斯称,Bot Management 背后的机器学习模型为通过其网络传输的请求生成机器人分数,该模型有一个经常更新的配置文件,有助于识别自动化请求;然而,“我们生成此文件的底层 ClickHouse 查询行为的变化导致它有大量重复的‘特征’行。”博客文章中详细介绍了接下来发生的事情,但查询更改导致其 ClickHouse 数据库生成信息重复。随着配置文件迅速增长超过预设内存限制,它关闭了“为我们的客户处理流量处理的核心代理系统,对于任何依赖机器人模块的流量。”结果,使用 Cloudflare 规则阻止某些机器人的公司返回了误报并切断了真实流量,而在其规则中未使用生成的机器人分数的 Cloudflare 客户仍在线。目前,它列出了四个具体计划,以防止此类问题再次发生,即使互联网服务的日益集中可能使这些中断不可避免: