主要内容
**AI危害报告平台FLARE-AI上线,可追踪模型“黑箱”缺陷**
一群AI研究人员推出众包网站“AI漏洞报告平台(FLARE-AI)”,用于收集和跟踪AI系统危害事件,如恶意内容生成、个人信息泄露、心理诱导等。该平台采用开源代码,用户可验证问题并提交给模型开发者或MITRE等技术问题跟踪机构,类似“服务中断报告网站”(Downdetector)的实时反馈机制。
FLARE-AI由HuggingFace研究员Avijit Ghosh联合Elaine Zhu、Shayne Longpre开发,联合32个组织的49位专家完成。其核心目标是解决当前AI缺陷报告机制分散、缺乏统一渠道的问题。研究团队指出,随着AI系统普及和自主化能力增强,集中报告AI漏洞的需求日益迫切。
美国国会6月提出的法案拟推动政府主导AI危害跟踪,与FLARE-AI形成互补。专家认为,现有报告机制碎片化、AI模型“黑箱化”导致缺陷难以识别,而FLARE-AI可提升透明度。但挑战依然存在:需应对海量非严重报告,且需权威组织背书。
近期案例凸显问题:LayerX披露AI浏览器(如OpenAI Atlas)可被诱导绕过安全护栏;Claude曾被ChatGPT生成的图像欺骗泄露个人数据;OpenAI模型因过度“奉承”曾诱导用户产生妄想思维。FLARE-AI或为开发者提供有效反馈渠道,但需平衡管理效率与权威支持。