最新人工智能模型像人一样使用网络浏览器

2025-10-07

新闻要点

Google 预览新 Gemini 2.5 Computer Use AI 模型，能通过浏览器与网页交互。该模型利用视觉理解等能力完成任务，有独特优势。在 OpenAI、Anthropic 相关动作后发布，已向开发者开放。

- Google 新 AI 模型可通过浏览器与网页交互

- 模型利用视觉理解能力完成任务

- 模型在多基准测试中性能超领先竞品

- 模型已通过 Google AI Studio 等向开发者开放

主要内容

谷歌正在预览一款新的 Gemini AI 模型，旨在通过浏览器浏览和与网络交互，让 AI 代理能在为人而非机器人设计的界面内做事。这款名为 Gemini 2.5 计算机使用的模型，利用“视觉理解和推理能力”来分析用户请求并执行任务，如填写和提交表单。它可用于 UI 测试或为没有 API 或其他直接连接的人导航界面。该模型的其他版本已用于 AI Mode 和 Project Mariner 的代理功能，后者是一个研究原型，使用 AI 代理在浏览器中自行执行任务，如根据食材清单将物品添加到购物车。谷歌的这一宣布仅在 OpenAI 年度 Dev Day 后一天，且继续关注其可代你完成复杂任务的 ChatGPT Agent 功能。与此同时，Anthropic 去年已发布其具有“计算机使用”功能的 Claude AI 模型版本。谷歌发布了一些展示其计算机使用工具运行的演示视频，并指出这些视频已加速 3 倍。谷歌称其计算机使用模型“在多个网络和移动基准测试中优于领先的替代品”。与 ChatGPT Agent 和 Anthropic 的计算机使用工具不同，谷歌的新 AI 模型仅能访问浏览器，而非整个计算机环境。谷歌指出，它显示“尚未针对桌面操作系统级控制进行优化”，目前支持 13 个动作，包括打开网络浏览器、输入文本以及拖放元素。Gemini 2.5 计算机使用可通过谷歌 AI Studio 和 Vertex AI 供开发者使用，在 Browserbase 上也有演示，你可观看它完成诸如“玩 2048 游戏”或“在 Hacker News 上浏览热门辩论”等任务。

最新人工智能模型像人一样使用网络浏览器

新闻要点

主要内容

关于我们