研究人员提出报告危险人工智能缺陷的更好方法

2025-03-13

新闻要点

在2023年末，第三方研究团队发现OpenAI的GPT-3.5模型存在漏洞，导致重复单词时产生无意义文本和泄露个人信息。研究人员建议采用标准化报告、大型公司支持第三方研究以及建立漏洞共享系统，以提升AI模型的安全性。该提议由30多名AI研究人员提出，旨在改善第三方披露流程，减少因漏洞曝光带来的风险。

- 第三方研究团队发现OpenAI GPT-3.5漏洞

- 提议标准化报告和建立共享系统提升AI安全性

- 包括来自MIT、斯坦福等学术机构及微软、Mozilla等大公司的支持

主要内容

2023年末，第三方研究团队在OpenAI广泛使用的人工智能模型GPT-3.5中发现了令人担忧的故障。当被要求重复某些单词1000遍时，模型开始不断重复该单词，随后突然开始输出无意义的文本，并从其训练数据中提取出个人信息的片段，包括部分姓名、电话号码和电子邮件地址。发现问题的团队与OpenAI合作，确保在公开披露前修复了该漏洞。这仅仅是近年来在主要AI模型中发现的众多问题之一。

在今日发布的一份提案中，包括发现GPT-3.5漏洞的学者在内的30多位知名AI研究人员表示，许多影响流行模型的其他漏洞被报告的方式存在问题。他们建议由AI公司支持的新方案，允许外部人员探测其模型，并公开披露漏洞。“目前这有点像是狂野西部时代，”麻省理工学院博士候选人肖恩·朗普雷（Shayne Longpre）作为该提案的主要作者说道。朗普雷表示，一些所谓的“越狱者”在社交媒体平台X上分享他们破解AI安全措施的方法，使模型和用户处于风险之中。其他“越狱”只与一家公司分享，尽管它们可能影响许多。有些漏洞则被保密，因为担心因此被禁止或面临违反使用条款的起诉。“显然存在令人不安的影响和不确定性，”他说道。

鉴于AI技术的广泛应用及其可能渗透到无数应用程序和服务中，AI模型的安全性和安全性至关重要。强大的模型需要进行压力测试或红队测试，因为它们可能隐藏有害的偏见，并且某些输入可能导致其突破防护并产生不愉快或危险的反应。这些反应包括鼓励易受伤害的用户参与有害行为，或帮助不良行为者开发网络、化学或生物武器。一些专家担心模型可能协助网络犯罪分子或恐怖分子，甚至可能随着技术进步转而对人类构成威胁。

为了改善第三方披露过程，作者提出了三项主要措施：采用标准化的AI缺陷报告以简化报告流程；大型AI公司提供基础设施支持第三方研究人员披露缺陷；以及开发允许不同供应商之间共享缺陷的系统。这一方法借鉴了网络安全领域的做法，其中存在法律保护和既定规范，允许外部研究人员披露漏洞。“AI研究人员并不总是知道如何披露缺陷，也不能确定其善意披露缺陷不会使其面临法律风险，”HackerOne公司的首席法律和政策官伊洛娜·科恩（Ilona Cohen）作为该报告的合著者说道。目前，大型AI公司在发布AI模型前会进行广泛的安全测试。一些公司还与外部公司签订合同进行进一步探测。“这些[公司]里是否有足够的人员来解决数十亿人在我们从未想象过的应用中使用的通用AI系统的问题？”朗普雷问道。

一些AI公司已经开始组织AI漏洞赏金计划。然而，朗普雷表示，独立研究人员如果自行探测强大的AI模型，可能会违反使用条款。该倡议背后的研究人员包括来自麻省理工学院、斯坦福大学、普林斯顿大学和卡内基梅隆大学的学者，以及微软和Mozilla等大型公司和几个独立的AI研究组织。斯坦福大学博士后研究员露丝·阿贝尔（Ruth Appel）表示，需要一个正式的方式来迅速标记AI模型中的错误，并公开对公司进行问责。如果没有这样的方案，“用户将经历……”。

研究人员提出报告危险人工智能缺陷的更好方法

新闻要点

主要内容

关于我们