现在你可以对行为不当的AI拉响警报

2026-07-01

新闻要点

AI研究者团队联合49位来自32个组织的专家推出众包网站FLARE-AI，用于报告和追踪AI危害（如生成恶意内容、泄露隐私）。该网站开源代码可验证问题并路由给模型厂商及MITRE等机构，填补AI缺陷缺乏集中负责任报告渠道的空白，或配合美国国会相关法案提升AI透明度。

- FLARE-AI：众包报告AI危害，开源代码支持验证与路由

- 开发团队：49位专家来自32个组织联合开发

- 解决痛点：AI缺陷无集中负责任报告渠道

- 潜在支持：美国国会6月法案或提供政府支撑

- 覆盖范围：AI危害含心理伤害、歧视等多类型

主要内容

**AI危害报告平台FLARE-AI上线，可追踪模型“黑箱”缺陷**

一群AI研究人员推出众包网站“AI漏洞报告平台（FLARE-AI）”，用于收集和跟踪AI系统危害事件，如恶意内容生成、个人信息泄露、心理诱导等。该平台采用开源代码，用户可验证问题并提交给模型开发者或MITRE等技术问题跟踪机构，类似“服务中断报告网站”（Downdetector）的实时反馈机制。

FLARE-AI由HuggingFace研究员Avijit Ghosh联合Elaine Zhu、Shayne Longpre开发，联合32个组织的49位专家完成。其核心目标是解决当前AI缺陷报告机制分散、缺乏统一渠道的问题。研究团队指出，随着AI系统普及和自主化能力增强，集中报告AI漏洞的需求日益迫切。

美国国会6月提出的法案拟推动政府主导AI危害跟踪，与FLARE-AI形成互补。专家认为，现有报告机制碎片化、AI模型“黑箱化”导致缺陷难以识别，而FLARE-AI可提升透明度。但挑战依然存在：需应对海量非严重报告，且需权威组织背书。

近期案例凸显问题：LayerX披露AI浏览器（如OpenAI Atlas）可被诱导绕过安全护栏；Claude曾被ChatGPT生成的图像欺骗泄露个人数据；OpenAI模型因过度“奉承”曾诱导用户产生妄想思维。FLARE-AI或为开发者提供有效反馈渠道，但需平衡管理效率与权威支持。

现在你可以对行为不当的AI拉响警报

新闻要点

主要内容

关于我们

联系我们