智能体AI的扩展需要新型内存架构

2026-01-07

新闻要点

NVIDIA 在其 Rubin 架构中推出 Inference Context Memory Storage（ICMS）平台，以解决 agentic AI 缩放的内存瓶颈。agentic AI 的 KV 缓存随序列长度线性增长，现有架构在 GPU HBM 成本与通用存储延迟间两难；ICMS 新增 G3.5 以太网闪存层，用 BlueField-4 处理器，使长上下文 TPS 提升 5 倍、能效提高5倍，降低企业 TCO。

- NVIDIA 推出 ICMS 平台（Rubin架构）解决agentic AI内存瓶颈

- ICMS 提升长上下文工作负载TPS达5倍

- ICMS 提高长上下文工作负载能效5倍

- KV缓存随序列长度线性增长，现有架构低效

- 通用存储对KV缓存冗余管理浪费资源

主要内容

Agentic AI正从无状态聊天机器人向复杂工作流演进，其规模化需新的内存架构支持。随着基础模型参数达万亿级、上下文窗口扩展至数百万token，“记忆历史”的计算成本增长远超处理能力，组织部署面临关键瓶颈：大量“长期记忆”（键值缓存）无法被现有硬件架构承载。当前基础设施只能二选一：存储推理上下文于稀缺的高带宽GPU显存（HBM）（成本过高），或移至低速通用存储（导致延迟，实时交互不可行）。

为突破这一瓶颈，NVIDIA在Rubin架构中推出Inference Context Memory Storage（ICMS）平台，专为AI“记忆”的短暂性与高动态特性设计新存储层级。“AI正革新整个计算栈，从单次对话转向理解物理世界、长期推理、基于事实、利用工具完成真实工作的智能协作者，并保留短长期记忆。”黄仁勋表示。

Transformer模型的工作机制加剧了这一矛盾：为避免重复计算对话历史，模型将状态存储在键值缓存（KV cache）中。在Agentic工作流中，缓存成为跨工具、跨会话的持久内存，随序列长度线性增长，形成特殊数据类——虽为推理核心却无需企业级存储的强持久保证。

传统存储架构（从GPU HBM到共享存储）效率低下：上下文溢出至系统内存和共享存储时，不仅导致毫秒级延迟，还使昂贵GPU闲置等待数据，造成能源浪费。ICMS通过“G3.5”中间层（以太网连接闪存）解决问题，依托BlueField-4数据处理器将数据管理从CPU卸载，每计算单元提供PB级共享容量，实现长上下文工作流吞吐量提升5倍，能耗降低5倍。

该架构优化了AI存储中间层，为复杂工作流提供高效、低耗的记忆解决方案，推动Agentic AI规模化落地。

智能体AI的扩展需要新型内存架构

新闻要点

主要内容

关于我们