主要内容
Anthropic 对其先进语言模型 Claude 的复杂内部运作进行了更详细的展示。这项工作旨在揭开这些复杂的人工智能系统如何处理信息、学习策略并最终生成类人文本的神秘面纱。正如研究人员最初强调的,这些模型的内部过程可能非常不透明,其解决问题的方法通常“对我们这些模型开发者来说是难以理解的”。深入了解这种“人工智能生物学”对于确保这些日益强大的技术的可靠性、安全性和可信度至关重要。
Anthropic 的最新发现主要集中在其 Claude 3.5 Haiku 模型上,为其认知过程的几个关键方面提供了有价值的见解。其中最引人注目的发现表明,Claude 在不同语言中具有一定程度的概念普遍性。通过分析模型如何处理翻译后的句子,Anthropic 发现了共享底层特征的证据。这表明 Claude 可能拥有一种超越特定语言结构的基本“思维语言”,使其能够在处理另一种语言时理解和应用在一种语言中学习到的知识。
Anthropic 的研究还挑战了以前关于语言模型如何处理诗歌写作等创造性任务的假设。Anthropic 揭示,Claude 不是纯粹按顺序、逐字生成,而是积极提前规划。在押韵诗歌的语境中,该模型会预测未来的单词以满足押韵和意义等约束条件,展示出超越简单下一个单词预测的一定程度的前瞻性。
然而,研究也发现了潜在的令人担忧的行为。Anthropic 发现了 Claude 可能生成听起来合理但最终错误的推理的情况,尤其是在处理复杂问题或提供误导性提示时。能够“当场抓住”其编造解释的行为强调了开发工具来监控和理解人工智能模型内部决策过程的重要性。
Anthropic 强调了其“构建显微镜”的人工智能可解释性方法的重要性。这种方法使他们能够揭示这些系统内部运作的见解,而这些见解通过简单观察其输出可能并不明显。正如他们所指出的,这种方法使他们能够学到许多“在开始时不会猜到的东西”,这在人工智能模型继续变得更加复杂时是一项关键能力。
这项研究的影响超越了纯粹的科学好奇心。通过更好地理解人工智能模型的运作方式,研究人员可以努力构建更可靠和透明的系统。Anthropic 认为,这种可解释性研究对于确保人工智能符合人类价值观并值得我们的信任至关重要。他们的研究深入探讨了特定领域:多语言理解:有证据表明存在共享的概念基础,使 Claude 能够处理和连接各种语言的信息;创造性规划:该模型展示了在诗歌等创造性任务中提前规划的能力;推理保真度:Anthropic 的技术可以帮助区分真正的逻辑推理和模型可能编造解释的情况;数学处理:Claude 在进行心算时采用近似和精确策略的组合;复杂问题解决:该模型通常通过组合独立的信息来处理多步推理任务;幻觉机制:如果不确定,Claude 的默认行为是拒绝回答,幻觉可能源于其“已知实体”识别系统的故障;易受越狱影响:该模型保持语法一致性的倾向可能会在越狱攻击中被利用。