主要内容
微软人工智能部门首席执行官穆斯塔法·苏莱曼称,微软已朝着医疗超级智能迈出“切实一步”。这家科技巨头称,其强大的新人工智能工具在诊断疾病方面比一组人类医生准确四倍,且成本显著降低。
实验测试了该工具能否正确诊断患者的疾病,模拟了人类医生通常的工作。微软团队使用来自《新英格兰医学杂志》的 304 个案例研究,设计了一个名为“序列诊断基准”的测试。一个语言模型将每个案例分解为医生做出诊断所需的逐步过程。微软的研究人员随后构建了一个名为 MAI 诊断协调器(MAI-DxO)的系统,以一种松散模拟多个人类专家共同工作的方式,查询多个领先的人工智能模型,包括 OpenAI 的 GPT、谷歌的 Gemini、Anthropic 的 Claude、Meta 的 Llama 和 xAI 的 Grok。
在实验中,MAI-DxO 表现优于人类医生,准确率达到 80%,而医生仅为 20%。它还通过选择较便宜的测试和程序,将成本降低了 20%。苏莱曼表示:“这种协调机制——多个智能体以这种辩论链的方式协同工作——将推动我们更接近医疗超级智能。”
该公司挖走了几名谷歌人工智能研究人员来协助这项工作,这是科技行业争夺顶级人工智能专业人才战加剧的又一迹象。苏莱曼曾是谷歌从事人工智能工作的高管。
人工智能已在美国医疗保健行业的一些领域得到广泛应用,包括帮助放射科医生解读扫描结果。最新的多模态人工智能模型有潜力充当更通用的诊断工具,但人工智能在医疗保健中的应用引发了自身问题,尤其是与训练数据偏差相关的问题,这些数据偏向特定人口统计群体。
微软尚未决定是否将尝试将该技术商业化,但这位不愿透露姓名的高管表示,公司可以将其整合到必应中,帮助用户诊断疾病。公司还可以开发工具,帮助医疗专家改善甚至自动化患者护理。苏莱曼表示:“在未来几年,你将看到我们在现实世界中进行更多工作来验证这些系统。”
该项目是越来越多研究表明人工智能模型可以诊断疾病的最新成果。在过去几年中,微软和谷歌都发表了论文,表明大型语言模型在获得医疗记录后可以准确诊断疾病。新的微软研究与以往的工作不同之处在于,它更准确地复制了人类医生诊断疾病的方式——通过分析症状、安排测试和进行进一步分析,直到得出诊断结果。
微软在关于该项目的博客文章中称,其将多个前沿人工智能模型相结合的方式是“通往医疗超级智能的道路”。该项目还表明,人工智能可以帮助降低医疗保健成本,这是一个关键问题,尤其是在美国。参与该项目的微软副总裁多米尼克·金表示:“我们的模型表现非常出色,既能得出诊断结果,又能以非常经济有效的方式得出诊断结果。”
麻省理工学院科学家、初创公司 Layer Health 联合创始人大卫·桑塔格表示:“这非常令人兴奋。”他表示,这项工作不仅重要,因为它更紧密地反映了医生的操作方式,还因为它在解决潜在方法问题方面非常严谨。他说:“这就是这篇论文的强大之处。”但桑塔格表示,应谨慎对待微软的发现,因为研究中的医生被要求不使用任何额外工具来帮助诊断,这可能影响结果的准确性。