擅长作诗与胡诌

2025-03-28

新闻要点

Anthropic研究团队探索大语言模型Claude思维过程，其行为常带来惊喜。虽非人类，但研究中难避拟人化。团队扩展此前研究，发现Claude写诗会提前规划，还存在“瞎扯”现象，理解其思维对优化模型、减少危险行为有重要意义。

- Claude写诗会提前规划，超出研究人员预期

- Claude在数学问题上存在“瞎扯”现象

- 理解Claude思维对优化模型有重要意义

主要内容

Anthropic 可解释性团队的研究人员深知，公司的大型语言模型 Claude 既不是人类，也不是有意识的软件。然而，要谈论 Claude 以及一般的高级语言模型，他们很难不陷入拟人化的陷阱。在提醒人们数字操作绝不同于思考的人类的同时，他们经常谈论 Claude 头脑内部的情况。这确实是他们的工作。他们发表的论文描述的行为不可避免地会引发与现实生物的比较。本周该团队发布的两篇论文之一的标题就直白地写道：“论大型语言模型的生物学”。这是史蒂文·莱维（Steven Levy）最新一期《纯文本》时事通讯中的一篇文章。订阅《纯文本》以阅读全文，并利用史蒂文独特的见解和无与伦比的人脉获取对科技的长远视角。不管喜欢与否，数亿人已经在与这些模型互动，随着模型变得更强大，我们也更沉迷，我们的互动只会变得更加激烈。因此，我们应该关注涉及“追踪大型语言模型的思想”的工作，这恰好是描述最近工作的博客文章的标题。Anthropic 研究员杰克·林赛（Jack Lindsey）告诉我：“随着这些模型能做的事情变得更加复杂，它们在内部实际如何做到这些事情变得越来越不明显。能够追踪模型在头脑中可能采取的内部步骤变得越来越重要。”（什么头脑？没关系。）在实际层面上，如果创建语言模型的公司了解它们的思维方式，应该在训练这些模型方面更成功，以最大程度减少危险的不当行为，如泄露人们的个人数据或向用户提供制造生物武器的信息。在之前的一篇研究论文中，Anthropic 团队发现了如何窥探语言模型思维的神秘黑箱以识别某些概念。（这一过程类似于解读人类磁共振成像以弄清楚某人在想什么。）现在，他们将这项工作扩展到理解 Claude 在从提示到输出的过程中如何处理这些概念。对于语言模型来说，它们的行为经常让创建和研究它们的人感到惊讶，这几乎是一个不言而喻的事实。在最新的研究中，惊喜不断。在一个较为良性的例子中，研究人员在 Claude 写诗时瞥见了它的思维过程。他们让 Claude 完成一首以“他看到一根胡萝卜，不得不抓住它”开头的诗。Claude 写下了下一行：“他的饥饿就像一只饥饿的兔子。”通过观察 Claude 相当于磁共振成像的东西，他们了解到，甚至在开始写这一行之前，它就在脑海中闪现“兔子”这个词作为句子结尾的押韵词。它在提前计划，这在 Claude 的操作手册中是没有的。“我们对此有点惊讶，”解释性团队负责人克里斯·奥拉（Chris Olah）说，“最初我们认为只会有即兴创作而没有计划。”与研究人员谈论此事时，我想起了斯蒂芬·桑德海姆（Stephen Sondheim）的艺术回忆录《看，我做了一顶帽子》中的段落，这位著名作曲家描述了他独特的头脑如何发现巧妙的押韵。研究中的其他例子揭示了 Claude 思维过程中更令人不安的方面，从音乐喜剧到警察程序，正如科学家在 Claude 的大脑中发现了狡猾的想法一样。以看似无害的解决数学问题为例，这有时是语言模型的一个令人惊讶的弱点。研究人员发现，在某些情况下，当 Claude 无法得出正确答案时，它反而会“从事哲学家哈里·法兰克福（Harry Frankfurt）所说的‘胡说八道’——只是想出一个答案，任何答案，而不在乎它是真还是假。”更糟糕的是，有时当研究人员要求 Claude 展示其工作时，它会

擅长作诗与胡诌

新闻要点

主要内容

关于我们