主要内容
Anthropic正陷入一个悖论:作为顶级AI公司,它对安全的重视程度远超同行,在研究模型出错风险方面领先,但即便已识别的安全问题远未解决,它仍与竞争对手一样激进地推进更危险的下一代AI发展。其核心使命正是解决这一矛盾。
上月,Anthropic发布两份文件,既承认自身发展路径的风险,也暗示了突破悖论的可能。CEO达里奥·阿莫代伊的长篇博客《技术的青春期》名义上讨论“应对强大AI的风险”,但更多篇幅聚焦前者。他将挑战描述为“艰巨”,并强调AI风险因威权主义者滥用技术的可能性而更加严峻——这与他此前《充满爱意的机器》中“天才国度”的乌托邦式乐观形成鲜明对比,后者描绘数据中心里的天才文明,而新作则隐喻“无限的黑暗海洋”。不过,在2万多字的悲观论述后,阿莫代伊最终仍持乐观态度,称人类在最黑暗时总能胜出。
另一篇1月发布的《Claude的宪法》则具体阐述了如何实现这一点。这份技术文档表面上是给Claude(及其未来版本)的指令,实则揭示了Anthropic让Claude(或许是同类AI)应对全球挑战的愿景:依靠Claude自身解开企业的“戈尔迪之结”。
Anthropic的差异化技术是“宪法AI”——模型遵循一套原则,将自身价值观与人类伦理对齐。2026年更新的宪法不再是简单的规则集合,而是一份详细的伦理框架提示词,让Claude自主平衡“有益、安全、诚实”的指令。哲学博士阿曼达·阿塞尔解释,这种“独立判断”比单纯遵守规则更可靠,“我们希望Claude在伦理思考时既理性严谨,又能直觉性地权衡多元因素,在实时决策中快速明智地选择”。
“宪法”还希望Chatbot“日益依靠自身智慧和理解”。阿塞尔直言:“Claude确实能具备某种程度的智慧。”尽管“智慧”一词用于描述算法装置颇具争议,但Anthropic正试图通过让AI自主判断来平衡安全与发展的悖论,为行业提供了一条激进探索中的另类路径。