主要内容
Agentic AI正从无状态聊天机器人向复杂工作流演进,其规模化需新的内存架构支持。随着基础模型参数达万亿级、上下文窗口扩展至数百万token,“记忆历史”的计算成本增长远超处理能力,组织部署面临关键瓶颈:大量“长期记忆”(键值缓存)无法被现有硬件架构承载。当前基础设施只能二选一:存储推理上下文于稀缺的高带宽GPU显存(HBM)(成本过高),或移至低速通用存储(导致延迟,实时交互不可行)。
为突破这一瓶颈,NVIDIA在Rubin架构中推出Inference Context Memory Storage(ICMS)平台,专为AI“记忆”的短暂性与高动态特性设计新存储层级。“AI正革新整个计算栈,从单次对话转向理解物理世界、长期推理、基于事实、利用工具完成真实工作的智能协作者,并保留短长期记忆。”黄仁勋表示。
Transformer模型的工作机制加剧了这一矛盾:为避免重复计算对话历史,模型将状态存储在键值缓存(KV cache)中。在Agentic工作流中,缓存成为跨工具、跨会话的持久内存,随序列长度线性增长,形成特殊数据类——虽为推理核心却无需企业级存储的强持久保证。
传统存储架构(从GPU HBM到共享存储)效率低下:上下文溢出至系统内存和共享存储时,不仅导致毫秒级延迟,还使昂贵GPU闲置等待数据,造成能源浪费。ICMS通过“G3.5”中间层(以太网连接闪存)解决问题,依托BlueField-4数据处理器将数据管理从CPU卸载,每计算单元提供PB级共享容量,实现长上下文工作流吞吐量提升5倍,能耗降低5倍。
该架构优化了AI存储中间层,为复杂工作流提供高效、低耗的记忆解决方案,推动Agentic AI规模化落地。