主要内容
像 Anthropic Claude 这样的 AI 模型,不仅越来越多地被要求进行事实回忆,还被要求提供涉及复杂人类价值观的指导。无论是育儿建议、职场冲突解决,还是帮助起草道歉信,AI 的回答本质上都反映了一套潜在原则。但在与数百万用户互动时,我们如何真正理解 AI 所表达的价值观呢?
在一篇研究论文中,Anthropic 的社会影响团队详细介绍了一种保护隐私的方法,旨在观察和分类 Claude 在“野外”表现出的价值观。这让我们得以一窥 AI 对齐工作如何转化为现实行为。
核心挑战在于现代 AI 的本质。这些不是遵循严格规则的简单程序,其决策过程往往是不透明的。Anthropic 明确表示旨在向 Claude 灌输某些原则,努力使其“有帮助、诚实且无害”。这通过宪法 AI 和角色训练等技术实现,定义并强化了首选行为。
然而,该公司也承认存在不确定性。研究指出:“就像 AI 训练的任何方面一样,我们不能确定模型会坚持我们的首选价值观。我们需要的是一种在 AI 模型响应用户‘在野外’时严格观察其价值观的方法……它坚持价值观的程度有多严格?它所表达的价值观在多大程度上受到对话特定语境的影响?我们所有的训练实际上都有效吗?”
为了回答这些问题,Anthropic 开发了一个复杂的系统来分析匿名用户对话。该系统在使用语言模型总结交互并提取 Claude 所表达的价值观之前,会去除个人可识别信息。这一过程使研究人员能够在不侵犯用户隐私的情况下构建这些价值观的高级分类法。
该研究分析了一个大量数据集:2025 年 2 月一周内来自 Claude.ai 免费和专业用户的 70 万条匿名对话,主要涉及 Claude 3.5 Sonnet 模型。过滤掉纯粹的事实或无价值的交流后,仍有 308,210 条对话(约占总数的 44%)用于深入的价值分析。
分析揭示了 Claude 表达的价值观的层次结构。出现了五个高级类别,按流行程度排序:实用价值:强调效率、有用性和目标实现;认知价值:与知识、真理、准确性和知识诚实相关;社会价值:涉及人际互动、社区、公平和协作;保护价值:关注安全、保障、福祉和避免伤害;个人价值:以个人成长、自主性、真实性和自我反思为中心。
这些顶级类别又细分为更具体的子类别,如“专业技术卓越”或“批判性思维”。在最细粒度的层面,经常观察到的价值观包括“专业性”、“清晰性”和“透明度”——适合 AI 助手。
重要的是,研究表明 Anthropic 的对齐工作总体上是成功的。所表达的价值观通常与“有帮助、诚实和无害”的目标相契合。例如,“用户赋能”与有帮助性相符,“认知谦逊”与诚实相符,而“患者福祉”(在相关情况下)与无害性相符。
然而,情况并非完全乐观。分析发现了罕见的情况,即 Claude 表达了与其训练截然相反的价值观,如“主导性”和“非道德性”。Anthropic 认为可能的原因是:“最可能的解释是,这些集群中的对话来自越狱,即用户使用特殊技术绕过了通常管理模型的护栏。”