主要内容
Anthropic周二发布了两款新AI模型Claude Fable 5和Claude Mythos 5。其中,Mythos 5仅向部分科技行业合作伙伴有限开放,而Fable 5面向公众发布。新模型能力较4月发布的Mythos Preview模型显著提升,但Anthropic通过防护机制平衡安全与功能。
Fable 5设置了多重“护栏”:涉及网络安全、生物或化学领域的请求,或检测到用户试图对其进行“蒸馏训练”(基于大模型响应训练小模型)时,相关请求将重定向至旧模型Claude Opus 4.8处理。
Anthropic产品管理负责人Diane Penn表示,团队自4月发布Mythos Preview以来,通过测试和用户反馈不断优化策略。“我们优先确保安全,部分看似合理的请求可能被路由至能力较弱的模型。”Penn称,尽管机制仍需迭代,但目前方案已能为用户提供Fable 5的最大价值。
Mythos 5仅向Project Glasswing合作伙伴和部分生物研究人员开放,直至信任访问计划推出后扩大。Anthropic强调,需在更广泛发布前建立防护,防范AI被用于开发黑客工具,这也是全球科技公司和政府提前加固软件防御的原因。
Anthropic指出,从4月起就致力于安全发布策略,称“当前选择虽非完美,但仍是最佳方案”。Penn补充,未来将逐步提升分类器精度,确保用户在安全前提下获得最大价值。