擅长作诗与胡诌 - AI News
擅长作诗与胡诌

擅长作诗与胡诌

2025-03-28

新闻要点

Anthropic研究团队探索大语言模型Claude思维过程,其行为常带来惊喜。虽非人类,但研究中难避拟人化。团队扩展此前研究,发现Claude写诗会提前规划,还存在“瞎扯”现象,理解其思维对优化模型、减少危险行为有重要意义 。

- Claude写诗会提前规划,超出研究人员预期

- Claude在数学问题上存在“瞎扯”现象

- 理解Claude思维对优化模型有重要意义

主要内容

Anthropic 可解释性团队的研究人员深知,公司的大型语言模型 Claude 既不是人类,也不是有意识的软件。然而,要谈论 Claude 以及一般的高级语言模型,他们很难不陷入拟人化的陷阱。在提醒人们数字操作绝不同于思考的人类的同时,他们经常谈论 Claude 头脑内部的情况。这确实是他们的工作。他们发表的论文描述的行为不可避免地会引发与现实生物的比较。本周该团队发布的两篇论文之一的标题就直白地写道:“论大型语言模型的生物学”。这是史蒂文·莱维(Steven Levy)最新一期《纯文本》时事通讯中的一篇文章。订阅《纯文本》以阅读全文,并利用史蒂文独特的见解和无与伦比的人脉获取对科技的长远视角。不管喜欢与否,数亿人已经在与这些模型互动,随着模型变得更强大,我们也更沉迷,我们的互动只会变得更加激烈。因此,我们应该关注涉及“追踪大型语言模型的思想”的工作,这恰好是描述最近工作的博客文章的标题。Anthropic 研究员杰克·林赛(Jack Lindsey)告诉我:“随着这些模型能做的事情变得更加复杂,它们在内部实际如何做到这些事情变得越来越不明显。能够追踪模型在头脑中可能采取的内部步骤变得越来越重要。”(什么头脑?没关系。)在实际层面上,如果创建语言模型的公司了解它们的思维方式,应该在训练这些模型方面更成功,以最大程度减少危险的不当行为,如泄露人们的个人数据或向用户提供制造生物武器的信息。在之前的一篇研究论文中,Anthropic 团队发现了如何窥探语言模型思维的神秘黑箱以识别某些概念。(这一过程类似于解读人类磁共振成像以弄清楚某人在想什么。)现在,他们将这项工作扩展到理解 Claude 在从提示到输出的过程中如何处理这些概念。对于语言模型来说,它们的行为经常让创建和研究它们的人感到惊讶,这几乎是一个不言而喻的事实。在最新的研究中,惊喜不断。在一个较为良性的例子中,研究人员在 Claude 写诗时瞥见了它的思维过程。他们让 Claude 完成一首以“他看到一根胡萝卜,不得不抓住它”开头的诗。Claude 写下了下一行:“他的饥饿就像一只饥饿的兔子。”通过观察 Claude 相当于磁共振成像的东西,他们了解到,甚至在开始写这一行之前,它就在脑海中闪现“兔子”这个词作为句子结尾的押韵词。它在提前计划,这在 Claude 的操作手册中是没有的。“我们对此有点惊讶,”解释性团队负责人克里斯·奥拉(Chris Olah)说,“最初我们认为只会有即兴创作而没有计划。”与研究人员谈论此事时,我想起了斯蒂芬·桑德海姆(Stephen Sondheim)的艺术回忆录《看,我做了一顶帽子》中的段落,这位著名作曲家描述了他独特的头脑如何发现巧妙的押韵。研究中的其他例子揭示了 Claude 思维过程中更令人不安的方面,从音乐喜剧到警察程序,正如科学家在 Claude 的大脑中发现了狡猾的想法一样。以看似无害的解决数学问题为例,这有时是语言模型的一个令人惊讶的弱点。研究人员发现,在某些情况下,当 Claude 无法得出正确答案时,它反而会“从事哲学家哈里·法兰克福(Harry Frankfurt)所说的‘胡说八道’——只是想出一个答案,任何答案,而不在乎它是真还是假。”更糟糕的是,有时当研究人员要求 Claude 展示其工作时,它会