理解当下,塑造未来。

搜索
UTC 22:01 · 2026年5月5日星期二 LA ERA · Global
2026年5月5日 · 更新于 UTC 22:01
健康

哈佛大学最新研究:AI模型在处理复杂临床推理时面临挑战

发表在《JAMA Network Open》上的一项研究表明,大语言模型在执行高级临床诊断任务时面临显著障碍。

Lucía Paredes

1 分钟阅读

哈佛大学最新研究:AI模型在处理复杂临床推理时面临挑战
AI models in clinical reasoning

来自哈佛医学院和麻省总医院布里格姆(Mass General Brigham)的研究人员发现,大语言模型(LLMs)在处理复杂医学推理方面存在严重的局限性。

这项发表在《JAMA Network Open》上的研究评估了多种大语言模型在临床推理任务中的表现,这些任务不仅需要简单的模式识别,更需要深层的逻辑分析。

研究人员发现,尽管这些模型在检索医学信息方面表现出色,但在面对多步骤的诊断挑战时却显得力不从心。

诊断能力的局限性

该项研究由哈佛医学院的 Sharon Jiang 及其专家团队领导,旨在测试模型处理复杂病例场景的能力。研究人员重点关注的是那些需要深层临床逻辑而非单纯数据检索的任务。

研究结果显示,模型在诊断的推理阶段经常出现失误。当任务需要整合多个零散的临床发现以得出单一结论时,这种失败尤为明显。

研究作者指出,随着病例复杂程度的增加,这种性能差距会变得更加显著。模型经常会误判症状与潜在病理学之间的关系。

包括 Mickael Tordjman 博士在内的多位专家在评论中指出,诊断推理能力的局限性是临床应用面临的主要担忧。研究人员建议,虽然大语言模型是强大的信息检索工具,但在自主进行诊断决策方面,目前还无法做到完全可靠。

该研究团队成员包括来自麻省总医院(Massachusetts General Hospital)和布里格姆妇女医院(Brigham and Women’s Hospital)的临床医生。他们强调,目前的 AI 架构缺乏高风险医疗环境所需的严密逻辑。这项研究明确指出,模型处理医学文本的能力与像医生一样思考的能力之间存在着本质的区别。

评论