主要内容
谷歌 DeepMind 称其升级后的 AI 模型可让机器人完成更复杂任务,甚至能借助网络寻求帮助。在新闻发布会上,谷歌 DeepMind 机器人部门主管卡罗琳娜·帕拉达向记者表示,公司新的 AI 模型协同工作,能让机器人在现实世界中行动前“提前思考多步”。该系统由新推出的 Gemini Robotics 1.5 及具身推理模型 Gemini Robotics-ER 1.5 驱动,这是谷歌 DeepMind 3 月推出的 AI 模型的更新版本。现在机器人不仅能完成单一任务,如折纸、拉拉链,还能根据颜色分离衣物、根据伦敦当前天气打包行李箱,以及根据针对特定地点要求的网络搜索帮助他人分类垃圾、堆肥和可回收物。帕拉达称:“此前的模型能很好地一次执行一个指令,且具有通用性。通过此次更新,我们从执行单个指令转向对实际物理任务的真正理解和解决。”为此,机器人可利用升级后的 Gemini Robotics-ER 1.5 模型了解周围环境,并使用谷歌搜索等数字工具获取更多信息。Gemini Robotics-ER 1.5 随后将这些发现转化为 Gemini Robotics 1.5 的自然语言指令,让机器人利用该模型的视觉和语言理解能力执行每一步。此外,谷歌 DeepMind 宣布 Gemini Robotics 1.5 可帮助机器人相互“学习”,即便它们配置不同。谷歌 DeepMind 发现,向由两个机械臂组成的 ALOHA2 机器人展示的任务,在双机械臂 Franka 机器人以及 Apptronik 的人形机器人 Apollo 上也能“正常运行”。谷歌 DeepMind 软件工程师卡尼什卡·拉奥在发布会上称:“这对我们有两方面意义:一是能用单个模型控制非常不同的机器人,包括人形机器人;二是在一个机器人上学习的技能现在可转移到另一个机器人上。”作为更新的一部分,谷歌 DeepMind 通过谷歌 AI Studio 中的 Gemini API 向开发者推出 Gemini Robotics-ER 1.5,而只有部分合作伙伴可访问 Gemini Robotics 1.5。