主要内容
周二晚间,Cloudflare 联合创始人兼 CEO 马修·普林斯(Matthew Prince)发布的一篇博客文章详细介绍了导致其“自 2019 年以来最严重的中断”的原因。问题归咎于 Bot Management 系统中的一个问题,该系统本应控制哪些自动化爬虫被允许使用其内容分发网络(CDN)扫描特定网站。Cloudflare 去年表示,约 20%的网络通过其网络运行,旨在分担负载,以在流量高峰和 DDoS 攻击时保持网站在线。但今天的崩溃使许多网站中断,导致从 X 到 ChatGPT 再到知名的中断跟踪器 Downdetector 数小时无法使用,类似于最近微软 Azure 和亚马逊网络服务出现问题导致的中断。
Cloudflare 的机器人控制本应帮助处理诸如爬虫抓取信息以训练生成式 AI 等问题。它还最近宣布了一个使用生成式 AI 构建“AI 迷宫”的系统,这是一种新的缓解方法,使用 AI 生成的内容来减缓、迷惑和浪费不尊重“禁止爬取”指令的 AI 爬虫和其他机器人的资源。然而,它表示今天的问题是由于数据库权限系统的更改,而不是生成式 AI 技术、DNS 或 Cloudflare 最初怀疑的网络攻击或恶意活动,如“超大规模 DDoS 攻击”。
据普林斯称,Bot Management 背后的机器学习模型为通过其网络传输的请求生成机器人分数,该模型有一个经常更新的配置文件,有助于识别自动化请求;然而,“我们生成此文件的底层 ClickHouse 查询行为的变化导致它有大量重复的‘特征’行。”博客文章中详细介绍了接下来发生的事情,但查询更改导致其 ClickHouse 数据库生成信息重复。随着配置文件迅速增长超过预设内存限制,它关闭了“为我们的客户处理流量处理的核心代理系统,对于任何依赖机器人模块的流量。”结果,使用 Cloudflare 规则阻止某些机器人的公司返回了误报并切断了真实流量,而在其规则中未使用生成的机器人分数的 Cloudflare 客户仍在线。目前,它列出了四个具体计划,以防止此类问题再次发生,即使互联网服务的日益集中可能使这些中断不可避免: