智能体AI的扩展需要新型内存架构 - AI News
智能体AI的扩展需要新型内存架构

智能体AI的扩展需要新型内存架构

2026-01-07

新闻要点

NVIDIA 在其 Rubin 架构中推出 Inference Context Memory Storage(ICMS)平台,以解决 agentic AI 缩放的内存瓶颈。agentic AI 的 KV 缓存随序列长度线性增长,现有架构在 GPU HBM 成本与通用存储延迟间两难;ICMS 新增 G3.5 以太网闪存层,用 BlueField-4 处理器,使长上下文 TPS 提升 5 倍、能效提高5倍,降低企业 TCO。

- NVIDIA 推出 ICMS 平台(Rubin架构)解决agentic AI内存瓶颈

- ICMS 提升长上下文工作负载TPS达5倍

- ICMS 提高长上下文工作负载能效5倍

- KV缓存随序列长度线性增长,现有架构低效

- 通用存储对KV缓存冗余管理浪费资源

主要内容

Agentic AI正从无状态聊天机器人向复杂工作流演进,其规模化需新的内存架构支持。随着基础模型参数达万亿级、上下文窗口扩展至数百万token,“记忆历史”的计算成本增长远超处理能力,组织部署面临关键瓶颈:大量“长期记忆”(键值缓存)无法被现有硬件架构承载。当前基础设施只能二选一:存储推理上下文于稀缺的高带宽GPU显存(HBM)(成本过高),或移至低速通用存储(导致延迟,实时交互不可行)。

为突破这一瓶颈,NVIDIA在Rubin架构中推出Inference Context Memory Storage(ICMS)平台,专为AI“记忆”的短暂性与高动态特性设计新存储层级。“AI正革新整个计算栈,从单次对话转向理解物理世界、长期推理、基于事实、利用工具完成真实工作的智能协作者,并保留短长期记忆。”黄仁勋表示。

Transformer模型的工作机制加剧了这一矛盾:为避免重复计算对话历史,模型将状态存储在键值缓存(KV cache)中。在Agentic工作流中,缓存成为跨工具、跨会话的持久内存,随序列长度线性增长,形成特殊数据类——虽为推理核心却无需企业级存储的强持久保证。

传统存储架构(从GPU HBM到共享存储)效率低下:上下文溢出至系统内存和共享存储时,不仅导致毫秒级延迟,还使昂贵GPU闲置等待数据,造成能源浪费。ICMS通过“G3.5”中间层(以太网连接闪存)解决问题,依托BlueField-4数据处理器将数据管理从CPU卸载,每计算单元提供PB级共享容量,实现长上下文工作流吞吐量提升5倍,能耗降低5倍。

该架构优化了AI存储中间层,为复杂工作流提供高效、低耗的记忆解决方案,推动Agentic AI规模化落地。