主要内容
谷歌 DeepMind 正在推出其 Gemini 机器人 AI 模型的设备版本,使其可在无互联网连接的情况下运行。视觉语言动作模型(VLA)具备类似于 3 月发布的那种灵巧能力,但谷歌称“它足够小且高效,可直接在机器人上运行”。旗舰版 Gemini 机器人模型旨在帮助机器人完成各种物理任务,即便未专门针对这些任务进行训练。它能让机器人概括新情况、理解并响应命令,以及执行需要精细运动技能的任务。谷歌 DeepMind 机器人部门负责人卡罗琳娜·帕拉达(Carolina Parada)告诉 The Verge,原始的 Gemini 机器人模型采用混合方法,可在设备和云端运行。但有了这个仅设备使用的模型,用户可访问几乎与旗舰版一样好的离线功能。该设备模型开箱即可执行多种不同任务,且能“仅通过 50 到 100 次演示”适应新情况。谷歌仅在其 ALOHA 机器人上训练了该模型,但公司能够将其适配到不同类型的机器人,如 Apptronik 的人形阿波罗机器人和双臂弗兰克 FR3 机器人。帕拉达称:“Gemini 机器人混合模型仍更强大,但我们实际上对这个设备模型的强大程度感到相当惊讶。我认为它可作为入门模型或用于连接性较差的应用。”对于有严格安全要求的公司来说,它也很有用。在此次推出的同时,谷歌还为该设备模型发布了软件开发工具包(SDK),开发者可用于评估和微调它——这在谷歌 DeepMind 的 VLA 中尚属首次。设备版 Gemini 机器人模型及其 SDK 将提供给一组受信任的测试人员,同时谷歌继续努力降低安全风险。