现在你可以对行为不当的AI拉响警报 - AI News
现在你可以对行为不当的AI拉响警报

现在你可以对行为不当的AI拉响警报

2026-07-01

新闻要点

AI研究者团队联合49位来自32个组织的专家推出众包网站FLARE-AI,用于报告和追踪AI危害(如生成恶意内容、泄露隐私)。该网站开源代码可验证问题并路由给模型厂商及MITRE等机构,填补AI缺陷缺乏集中负责任报告渠道的空白,或配合美国国会相关法案提升AI透明度。

- FLARE-AI:众包报告AI危害,开源代码支持验证与路由

- 开发团队:49位专家来自32个组织联合开发

- 解决痛点:AI缺陷无集中负责任报告渠道

- 潜在支持:美国国会6月法案或提供政府支撑

- 覆盖范围:AI危害含心理伤害、歧视等多类型

主要内容

**AI危害报告平台FLARE-AI上线,可追踪模型“黑箱”缺陷**

一群AI研究人员推出众包网站“AI漏洞报告平台(FLARE-AI)”,用于收集和跟踪AI系统危害事件,如恶意内容生成、个人信息泄露、心理诱导等。该平台采用开源代码,用户可验证问题并提交给模型开发者或MITRE等技术问题跟踪机构,类似“服务中断报告网站”(Downdetector)的实时反馈机制。

FLARE-AI由HuggingFace研究员Avijit Ghosh联合Elaine Zhu、Shayne Longpre开发,联合32个组织的49位专家完成。其核心目标是解决当前AI缺陷报告机制分散、缺乏统一渠道的问题。研究团队指出,随着AI系统普及和自主化能力增强,集中报告AI漏洞的需求日益迫切。

美国国会6月提出的法案拟推动政府主导AI危害跟踪,与FLARE-AI形成互补。专家认为,现有报告机制碎片化、AI模型“黑箱化”导致缺陷难以识别,而FLARE-AI可提升透明度。但挑战依然存在:需应对海量非严重报告,且需权威组织背书。

近期案例凸显问题:LayerX披露AI浏览器(如OpenAI Atlas)可被诱导绕过安全护栏;Claude曾被ChatGPT生成的图像欺骗泄露个人数据;OpenAI模型因过度“奉承”曾诱导用户产生妄想思维。FLARE-AI或为开发者提供有效反馈渠道,但需平衡管理效率与权威支持。