多模态人工智能在基准测试中击败GPT和Gemini - AI News
多模态人工智能在基准测试中击败GPT和Gemini

多模态人工智能在基准测试中击败GPT和Gemini

2025-11-12

新闻要点

百度最新的超高效多模态 AI 模型 ERNIE 在关键基准测试中击败 GPT 和 Gemini ,它针对企业数据设计,注重效率,可实现从感知到自动化转变,应用前景广阔,但对硬件要求较高。

- ERNIE 模型在多模态能力基准测试中超越 GPT 和 Gemini

- 模型为“轻量级” 运行仅激活 30 亿参数

- 模型在 MathVista 等关键测试中成绩领先

- 单卡部署需 80GB GPU 内存 对硬件要求高

主要内容

百度最新的 ERNIE 模型,一种超高效的多模态 AI,在关键基准测试中击败了 GPT 和 Gemini,并针对文本模型常忽略的企业数据。对许多企业而言,有价值的洞察被锁定在工程原理图、工厂车间视频馈送、医疗扫描和物流仪表板中。百度的新模型 ERNIE - 4.5 - VL - 28B - A3B - Thinking 旨在填补这一空白。

企业架构师感兴趣的不仅是其多模态能力,还有其架构。它被描述为“轻量级”模型,在运行期间仅激活 30 亿个参数。这种方法针对常使 AI 扩展项目停滞的高推理成本。百度押注效率作为采用的途径,将该系统训练为“多模态智能体”的基础,这些智能体不仅能感知,还能推理和行动。

百度多模态 ERNIE AI 模型支持的复杂视觉数据分析能力在处理密集的非文本数据方面表现出色。例如,它能解读“高峰时间提醒”图表以找到最佳访问时间,这反映了物流或零售中的资源调度挑战。ERNIE 4.5 在技术领域也显示出能力,如通过应用欧姆定律和基尔霍夫定律解决桥接电路图。

对于研发和工程部门,未来的助手可以验证设计或向新员工解释复杂的原理图。百度的基准测试显示,ERNIE - 4.5 - VL - 28B - A3B - Thinking 在一些关键测试中优于 GPT - 5 - High 和 Gemini 2.5 Pro:MathVista:ERNIE(82.5)对比 Gemini(82.3)和 GPT(81.3);ChartQA:ERNIE(87.1)对比 Gemini(76.3)和 GPT(78.2);VLMs Are Blind:ERNIE(77.3)对比 Gemini(76.5)和 GPT(69.6)。

当然,需要注意的是,AI 基准测试提供了指导,但可能存在缺陷。在将任何 AI 模型部署到关键任务应用程序之前,始终应进行内部测试。

百度的最新 ERNIE AI 模型从感知转向自动化,主要障碍是从感知(“这是什么?”)转向自动化(“现在怎么办?”)。ERNIE 4.5 声称通过将视觉基础与工具使用相结合来解决这一问题。要求多模态 AI 在图像中找到所有穿西装的人并以 JSON 格式返回其坐标是可行的。该模型生成结构化数据,这一功能可轻松转移到生产线进行视觉检查或系统审核网站图像以确保安全合规。

该模型还能管理外部工具并自主放大照片以读取小文本。如果遇到未知对象,它可以触发图像搜索以识别它。这代表了一种不那么被动的 AI 形式,可驱动智能体不仅标记数据中心错误,还能放大代码、搜索内部知识库并提出修复建议。

百度的最新 ERNIE AI 模型还针对企业视频档案,从培训课程和会议到安全录像。它能提取所有屏幕字幕并将其映射到精确的时间戳。它还展示了时间感知能力,通过分析视觉线索找到特定场景(如“在桥上拍摄的”)。明确的最终目标是使大量视频库可搜索,让员工在可能打瞌睡几次的两小时网络研讨会上找到特定主题被讨论的精确时刻。

百度为包括 Transformer、vLLM 和 FastDeploy 在内的多种路径提供了部署指南。然而,硬件要求是一个主要障碍。单卡部署需要 80GB 的 GPU 内存。这不是用于随意实验的工具,而是适用于拥有现有高性能 AI 基础设施的组织。对于拥有硬件的人,百度的 ERNIEKit 工具包允许在专有数据上进行微调,这对于大多数高价值用例是必要的。百度正在为其最新的 ERNIE AI 模型提供 Apache 许可证。