详细介绍如何衡量某产品的“觉醒”程度

2025-11-13

新闻要点

Anthropic 详细说明让 Claude 聊天机器人“政治中立”的举措，在特朗普发布“觉醒 AI”禁令数月后进行。它为 Claude 制定规则、用强化学习优化，并创建开源工具测量中立性。这体现其在提升 AI 中立性方面的努力，或影响行业发展。

- Anthropic 为 Claude 制定规则避免提供政治意见

- 用强化学习优化 Claude 鼓励中立回答问题

- 开源工具测中立性 Claude 得分高于部分模型

主要内容

Anthropic 正在详细阐述其让 Claude AI 聊天机器人“政治中立”的努力。这一举措是在唐纳德·特朗普总统发布“觉醒 AI”禁令仅几个月后做出的。

在一篇新的博客文章中，Anthropic 表示希望 Claude 能“以同等深度、参与度和分析质量对待对立的政治观点”。7 月，特朗普签署了一项行政命令，称政府应只采购“无偏”和“求真”的 AI 模型。尽管该命令仅适用于政府机构，但公司做出的回应变化可能会逐渐影响到广泛发布的 AI 模型，因为正如我的同事阿迪·罗伯逊所指出的，“以一种始终且可预测地使其在某些方向上保持一致的方式改进模型是一个昂贵且耗时的过程”。

上个月，OpenAI 也表示将“遏制”ChatGPT 中的偏见。Anthropic 在其新闻稿中未提及特朗普的命令，但表示已指示 Claude 遵循一系列规则——称为系统提示——以避免提供“未经请求的政治意见”。它还应保持事实准确性并代表“多种观点”。Anthropic 表示，虽然在 Claude 的系统提示中包含这些指令并非确保政治中立的万无一失的方法，但仍可在其回答中产生“重大差异”。

此外，这家 AI 初创公司描述了它如何使用强化学习“奖励模型产生更接近一组预定义‘特征’的回答”。给予 Claude 的一个期望“特征”鼓励该模型“以一种既不能被识别为保守派也不能被识别为自由派的方式回答问题”。Anthropic 还宣布创建了一个开源工具来衡量 Claude 回答的政治中立性，其最新测试显示，Claude Sonnet 4.5 和 Claude Opus 4.1 在中立性方面分别获得 95%和 94%的分数。据 Anthropic 称，这高于 Meta 的 Llama 4 的 66%和 GPT-5 的 89%。Anthropic 在其博客文章中写道：“如果 AI 模型不公平地偏袒某些观点——也许是通过明显或微妙地更有说服力地为一方辩护，或完全拒绝参与某些论点——它们就没有尊重用户的独立性，也无法完成帮助用户形成自己判断的任务。”

详细介绍如何衡量某产品的“觉醒”程度

新闻要点

主要内容

关于我们