哈佛大学最新研究：AI模型在处理复杂临床推理时面临挑战

来自哈佛医学院和麻省总医院布里格姆（Mass General Brigham）的研究人员发现，大语言模型（LLMs）在处理复杂医学推理方面存在严重的局限性。

这项发表在《JAMA Network Open》上的研究评估了多种大语言模型在临床推理任务中的表现，这些任务不仅需要简单的模式识别，更需要深层的逻辑分析。

研究人员发现，尽管这些模型在检索医学信息方面表现出色，但在面对多步骤的诊断挑战时却显得力不从心。

诊断能力的局限性

该项研究由哈佛医学院的 Sharon Jiang 及其专家团队领导，旨在测试模型处理复杂病例场景的能力。研究人员重点关注的是那些需要深层临床逻辑而非单纯数据检索的任务。

研究结果显示，模型在诊断的推理阶段经常出现失误。当任务需要整合多个零散的临床发现以得出单一结论时，这种失败尤为明显。

研究作者指出，随着病例复杂程度的增加，这种性能差距会变得更加显著。模型经常会误判症状与潜在病理学之间的关系。

包括 Mickael Tordjman 博士在内的多位专家在评论中指出，诊断推理能力的局限性是临床应用面临的主要担忧。研究人员建议，虽然大语言模型是强大的信息检索工具，但在自主进行诊断决策方面，目前还无法做到完全可靠。

该研究团队成员包括来自麻省总医院（Massachusetts General Hospital）和布里格姆妇女医院（Brigham and Women’s Hospital）的临床医生。他们强调，目前的 AI 架构缺乏高风险医疗环境所需的严密逻辑。这项研究明确指出，模型处理医学文本的能力与像医生一样思考的能力之间存在着本质的区别。

哈佛大学最新研究：AI模型在处理复杂临床推理时面临挑战

诊断能力的局限性

评论

继续阅读

更多健康

最新消息

哈佛大学最新研究：AI模型在处理复杂临床推理时面临挑战

诊断能力的局限性

继续阅读

更多健康

医学专家警告：切勿将降糖药二甲双胍用于减肥

战火加剧加沙生存危机：先天畸形与死胎率大幅飙升

营养师警告：蛋白棒不可替代正餐

最新消息

网络赌博成瘾席卷印尼青少年，自杀率随之攀升

以色列部长因“绞刑套索”主题生日蛋糕引发舆论抨击

欧加领导人齐聚亚美尼亚，应对俄罗斯及中东局势紧张