
RAGEN:人工智能框架应对大语言模型智能体的不稳定性
西北大学、斯坦福大学等团队提出RAGEN框架应对LLM代理不稳定问题。该框架基于StarPO,在极简符号游戏环境测试。其创新性在于提供训练评估基础设施,解决多轮随机环境难题,有望推动LLM代理在复杂场景的应用 。- RAGEN框架 应对LLM代理不稳定- StarPO 轨迹层面训练通用方法- 极简符号游戏环境 测试LLMs- StarPO-S 提升训练稳定性
西北大学、斯坦福大学等团队提出RAGEN框架应对LLM代理不稳定问题。该框架基于StarPO,在极简符号游戏环境测试。其创新性在于提供训练评估基础设施,解决多轮随机环境难题,有望推动LLM代理在复杂场景的应用 。- RAGEN框架 应对LLM代理不稳定- StarPO 轨迹层面训练通用方法- 极简符号游戏环境 测试LLMs- StarPO-S 提升训练稳定性
专家联盟等反对OpenAI偏离非营利根源,致信加州和特拉华州检察长,称其计划的结构转变会破坏关键治理保障,威胁最初慈善使命,影响AGI开发部署方向。- 专家联盟反对OpenAI 从非营利转向盈利结构- OpenAI原结构含非营利控制等多项保障- 转变或致使命从属、责任难落实、利润无上限
创意软件巨头Adobe的Fresco应用,现允许用户为作品嵌入 “无生成式AI创作” 的内容凭证。此前内容凭证已能追踪图像是否用AI工具处理,此次明确标记无AI创作尚属首次,尽管Adobe在其他应用中积极采用该技术。- Adobe的Fresco应用允许嵌入“无AI创作”凭证- 内容凭证新增明确标记作品无AI创作功能- Adobe在其他应用中积极拥抱AI技术
周四凌晨 12 点,美国任天堂 Switch 2 预购开启,初期状况频出。预购在 Best Buy、Target 和 Walmart 进行,不少人遇支付、缺货等问题,虽部分人成功预购,但多地现已售罄。任天堂曾因关税延迟预购,本周还发布销售相关消息。- Switch 2 美国周四凌晨预购 初期问题多- 多地预购 部分用户遇支付及订单取消问题- 任天堂曾因关税延迟预购 本周有新消息
OpenAI将ChatGPT升级图像生成模型推至API,Adobe和Figma等将采用 。OpenAI称其多模态模型用途广泛,“gpt-image-1”先通过Images API 提供 ,Responses API支持也将推出,该模型将解锁多领域应用 。- OpenAI推升级图像生成模型至API- Adobe和Figma将在工具中整合该模型- “gpt-image-1”先通过Images API提供
AMD 将于当地时间 5 月 21 日 11 点在台北电脑展举行新闻发布会直播,届时将“推出突破性 AI 进展”,重新定义游戏、个人电脑和专业工作负载。- AMD 将在台北电脑展直播新闻发布会- 时间为当地 5 月 21 日 11 点- 将推出突破性 AI 进展
Nvidia 更新 Windows 系统的 G-Assist AI 助手,增加插件支持。本月其突破原聚焦游戏优化局限,可控制 Spotify 等,还推出基于 ChatGPT 的插件生成器。开发者能创自定义功能,相关样本已发布在 GitHub。它对配置有要求,在 Nvidia 主应用中可选安装。- Nvidia更新G-Assist AI助手 拓展功能- G-Assist增加插件支持 可连外部工具- 基于ChatGPT 开发者能创建自定义插件- G-Assist对RTX系列GPU配置有要求
微软即将推出重新设计的 Microsoft 365 Copilot 应用,有新搜索、图像及笔记本功能。此次更新融合多种 AI 特性,与消费者版更趋相似,还接入第三方应用。该应用将在微软发布年度工作趋势指数时推出,有望助力企业借助 AI 工具发展。- 新 Microsoft 365 Copilot 应用即将推出- 具备 AI 搜索、图像生成等新特性- 接入第三方应用提供更相关搜索结果- 与年度工作趋势指数同时发布
YouTube 宣布未来几周将让 TV 会员测试自建非体育内容多视图,其 TV 应用也将重新设计,还将在移动设备为 Premium 订阅者推出 4 倍播放速度。这一系列改变旨在提升用户体验,适应新的观看习惯 。- YouTube TV 会员将测试自建非体育多视图- YouTube TV 应用即将迎来重新设计- YouTube 为 Premium 订户推 4 倍播放速
Margaret Mitchell 参与创建 SHADES 数据集 ,旨在测试 AI 模型如何延续刻板印象。该数据集源于 BigScience 项目,与多数只重英语的偏见缓解工作不同,它有人类翻译以测试更多语言文化。这有助于解决模型跨语言文化部署中的偏见问题。- SHADES 数据集 用于评估分析 AI 模型刻板印象- 数据集源于 BigScience 项目 有人类翻译- 打破只重英语局限 关注多语言文化偏见
Anthropic研究Claude价值观,开发系统分析大量匿名对话。2025年2月对70万条Claude对话分析,44%用于深入研究,揭示其价值观层级结构,表明对齐努力基本成功但有反例,该研究助了解AI在现实中体现的价值观。- Anthropic研究Claude价值观,分析70万条匿名对话- 研究揭示Claude价值观层级结构及5大高级类别- 研究表明Anthropic对齐努力基本成功但有反例
中国科技公司推动MCP标准应用,将AI助手转变为强大数字帮手。2024年11月该标准由Anthropic提出,如今蚂蚁集团、阿里云、百度等积极部署相关服务,这或推动AI从聊天机器人向更强大智能体转变,为创新和商业带来新机遇 。- 中国科技公司推动MCP标准应用- 2024年11月Anthropic推出MCP标准- 蚂蚁集团等积极部署MCP相关服务- MCP或推动AI向智能体转变带来机遇
随着数字平台和用户生成内容增加,有害内容检测从人工 moderation 向 AI 演变。AI 利用深度学习等技术,能处理海量多样数据,在文本和图像检测方面表现出色,具有即时大规模分析、上下文准确、保障数据隐私等优势,重塑有害内容管理方式。- AI 助力有害内容检测 带来多方面优势- 文本检测可分析语义 降低误报率- 图像检测扫描异常 保障视觉真实性
xAI的聊天机器人Grok有新进展,现支持iOS端“看”屏幕内容 ,还升级支持多语言语音聊天及语音实时搜索 ,正缩小与竞品差距。- Grok 支持iOS端“看”屏幕或摄像头内容- Grok 升级支持多语言语音聊天及搜索- Grok 缩小与竞争对手之间的差距
4月17日 Google 为 Gemini 2.5 Flash 引入 AI 推理控制机制,可限制系统解决问题时的处理能力消耗,应对先进 AI 模型过度分析、资源浪费问题,这或改变 AI 开发理念 。- Google 为 Gemini 2.5 Flash 引入推理控制机制- 全推理激活时输出成本约为标准处理6倍- 推理控制“思维预算”灵活范围0至24,576
华为最早下月大规模发货昇腾 910C 芯片,此时中国开发者受限英伟达硬件。该芯片虽工艺不先进但性能可比肩英伟达产品,采用组合芯片等方法提升性能,其 CloudMatrix 384 系统有优势有不足,或助中国塑造人工智能未来。- 昇腾 910C 最早下月大规模发货- CloudMatrix 384 系统性能超英伟达 GB200- 昇腾 910C 或成中国企业 AI 首选芯片- 华为用自研芯片替代外国组件成趋势
路透社报道,ChatGPT产品负责人称若谷歌卖Chrome,OpenAI有兴趣购买。美司法部提议谷歌剥离Chrome以应对垄断指控,审判补救阶段已开启,谷歌计划上诉。此外,OpenAI曾联系谷歌谈合作被拒,且在打造自身搜索索引 。- OpenAI 对谷歌若出售的 Chrome 浏览器感兴趣- 美司法部提议谷歌剥离 Chrome 应对垄断指控- OpenAI 曾联系谷歌谈合作 但未达成- OpenAI 正在打造自身搜索索引 目标或推迟
昨日美国电影艺术与科学学院在奥斯卡新规中提及生成式AI,未限制其使用,仅强调使用方式或有影响 。新规还要求成员若参与终轮投票需看完该类别所有影片。此次提及AI是学院规则首次,鉴于相关罢工,意义重大。- 奥斯卡新规提及AI 未限制使用但关注用法- 新规要求投票成员看完对应类别所有影片- 学院规则首次提及AI 与行业罢工有关
Sam Altman 将不再担任核能公司 Oklo 董事会主席,据《华尔街日报》报道,这为该初创公司未来与 OpenAI 在能源交易上合作铺平道路。Oklo 正开发下一代核反应堆,相比传统核电站更具优势,有望为 AI 数据中心供电。- Sam Altman 不再担任 Oklo 董事会主席- Oklo 开发下一代小型廉价易部署核反应堆- 先进核反应堆或为 AI 数据中心供电
今日 彭博社Mark Gurman报道 迈克·罗克韦尔负责苹果Siri团队并带来管理变动。- 迈克·罗克韦尔 负责苹果Siri团队- 罗克韦尔 带来Siri团队管理变动- Mark Gurman 报道Siri团队管理变化