“怪病”缠身 3 年求医无果,最终竟然被 ChatGPT 成功诊断!
这是发生在一名 4 岁男孩身上的真实经历。
某次运动后,他身体开始剧痛。母亲前后带他看了 17 名医生,从儿科、骨科到各种专家,先后进行了 MRI 等一系列检查,但没一个真正找出病因。
他的母亲没抱太大希望地尝试求助 ChatGPT,后者却根据描述和检查报告,直接给出了正确的建议。
话题一出冲上知乎热榜,Reddit 热度也飙升至 2.3k。
有网友表示,GPT 这次真的很让人激动:
每个医生的办公室都可以配备一个 AI 助手,并将它与自己的诊断结果进行比较。
还有网友 cue 了下谷歌专门训练的辅助医疗诊断大模型 Med-PaLM,想知道它的诊断结果如何:
对于大模型而言,这几乎是个完美的测试任务。
所以,这具体是怎么一回事?
故事的主人公名叫 Alex,他的母亲 Courtney 一共有两个孩子。
2020 年的一天,Alex 的保姆告诉 Courtney,Alex 每天都要服用止痛药,不然就会疼到崩溃。
接着,Alex 又出现了磨牙的症状,父母把这两件事联系到了一起,认为可能是由换牙或者蛀牙引起的疼痛导致的。
于是母亲带着 Alex 去看了牙医,Alex 长达三年的寻医之路便正式开始了。
由于牙医检查之后没有发现任何问题,但提出鉴于 Alex 正在磨牙,推荐他们去看专业治疗气道阻塞的正畸医生。
正畸医生发现,Alex 的上颚太小,导致呼吸困难,于是给 Alex 放置了一个扩张器。这种治疗方式的确起到了效果,母亲一度认为 Alex 的病马上就要痊愈了。
很合理,但现实往往是不讲逻辑的。
妈妈很快又发现,只有四岁的 Alex 个子突然不长了。
这一次,妈妈求助的是一名儿科医生。
医生认为 Alex 可能是受到了新冠病毒的影响,但妈妈对这个解释并不满意。不过,妈妈还是在 2021 年初带着 Alex 去复查了。
医生告诉妈妈,Alex 的个子“长高了一点”,但发现 Alex 的左右脚有些不平衡,建议他们选择物理治疗。
这次妈妈倒是相信了医生的话,但在物理治疗开始之前,Alex 又出现了头痛的症状,而且越来越严重。
物理治疗的事只好先搁置一下,母亲先带 Alex 去看神经 (内) 科医生,结论是 Alex 患有偏头痛。
在和头痛进行抗争的同时,Alex 还被精疲力竭的症状困扰着,于是又被带到了耳鼻喉科医生那里检查是否有鼻窦问题影响睡眠。
经历了这番波折之后,Alex 终于开始接受物理治疗,他的物理治疗师认为,Alex 可能患有一种名为 Chiari 畸形的先天性疾病。
这种先天性疾病会导致头骨与脊柱相接处的大脑出现异常。
母亲开始对此展开研究,带着 Alex 看了新的儿科医生、小儿内科医生、成人内科医生和肌肉骨骼医生等。
最终 Alex 看过的医生多达 17 位,可以说几乎踏遍了能想到的所有科室,甚至被送入急诊,但依旧没能检查出个所以然。
直到 ChatGPT 让整个事件出现了 180 度大逆转。
抱着试一试的心态,母亲注册了一个 ChatGPT 账号。
她将 Alex 的症状和 MRI 报告中的注释一并输入,其中有一个细节,就是 Alex 无法完成盘腿坐的动作。
ChatGPT 给出了诊断 —— 脊髓栓系综合征 (TCS)。
当然 Courtney 并没有直接相信,得到答案之后她先是找到了 Facebook 上的一个患儿家长交流群。
结果看了里面的讨论之后,母亲觉得这些症状和 Alex 真的是太像了。
这一发现让几近熄灭的希望之火重新燃了起来,事后母亲回忆说,自己在电脑前坐了一整晚,经历了所有的一切。
带着这一结论和 Alex 的 MRI 报告,找到了神经外科医生。
这次终于是找对人了,神外医生看了一眼 MRI 就给出了和 ChatGPT 一样的结论,并指出了栓系的具体位置。
再后来的事情就比较顺利了。Alex 接受了手术治疗,目前正在进行康复。
那么为什么 Alex 直到看到第 18 个医生才最终确诊呢?
首先,和 Alex 自身也有一定关系。
TCS 患者的背部通常会出现裂口,但 Alex 并没有裂口,这种情况称为隐式脊髓栓系综合征 (OTCS)。
虽然 TCS 是罕见病,但在新生儿中的发病率也并不低,约为 0.005~0.025%,比白血病的发病率还要高一些。
△ 陈莹格,米阳.妊娠期多发性胎儿发育异常一例 [J]. 临床医学进展,2023, 13 (2)
但 OTCS 就比较罕见了 —— 罕见到发病率根本没统计出来。
不过毕竟故事的最后,外科医生看到 MRI 图像之后很快就给出了判断。
所以,之前没能确诊,或许是因为“找错了医生”:那 17 名医生中,的确没有人从事外科。
当然,这也是正常的,毕竟他们都是擅长各自专业领域的专科医生(对应全科医生),专业之外的知识难免了解不全面。
但是这也暴露出了一个问题,遇到无法解释的难题时,这些医生都没有考虑进行多学科会诊,是否全面询问过 Alex 的各项病史也不得而知。
用母亲 Courtney 的话说,没有人愿意解决“更大 (超出自己学科范围) 的问题”,没有人会给出任何关于诊断结果的线索。
而 ChatGPT 的知识库至少在广度上比细分领域的专业人士要丰富的多,更加全面地考虑了 Alex 的情况,最终才给出正确的结论。
那么这次 ChatGPT 的成功诊断,究竟是误打误撞,还是确实已经具备诊断能力了?
事实上,用 ChatGPT 或 GPT-4 来做病情诊断工具,也不是第一次有人这样做了。
像是 GPT-4 出来后不久,就有人用它成功诊断了自家狗子的一种病例,这段经历一度在网上爆火。
他将狗子从第一次发病开始的症状、治疗过程以及每次的血液检测报告都告诉了 GPT-4:
20 号当天高烧 41.5 摄氏度,医生根据验血结果诊断为犬巴贝斯虫病(附血液检测结果),接下来的 3 天接受抗生素治疗,24 日当天接受抗生素治疗,但出现牙龈苍白(附新的血液检测结果)。
GPT-4 很快给出了检测结果,并在对话中表明可能是以下两种原因导致的:
1、溶血:由于各种原因造成的红细胞破坏,如免疫介导性溶血性贫血(IMHA)、毒素或除巴贝斯虫病以外的其他感染。
2、失血:内部或外部出血,可由创伤、手术或胃肠道问题 (如溃疡或寄生虫) 引起。
最终医生诊断结果显示,狗子患上的确实是免疫介导性溶血性贫血(IMHA),对症下药后狗子得救了。
除此之外,也有网友自述被 ChatGPT(GPT-4)救了一命的经历。
他在去健身房后浑身酸痛,将病症咨询 GPT-4 后,得出“横纹肌溶解症”的答案,立刻去医院并因此捡了一命。
但也有学术研究提到,无论是 ChatGPT 还是 GPT-4,都并非一个完全可以依赖的 AI 医生。
例如哈佛大学附属医院布莱根妇女医院(BWH)发表在 JAMA 上的一项研究就显示,在给出癌症治疗建议时,ChatGPT 只有 62% 的案例是完全正确的。
在其他的案例中,有 34% 的建议至少都包含一个或多个和正确诊断结果不一致的答案,还有 2% 的案例给出了不可信的诊断结果。
对此,研究认为,还不能完全将诊断交给 ChatGPT 或 GPT-4,毕竟他们在诊断这一过程上依旧无法和专业的医生相比。
(不过有网友指出,ChatGPT 没诊断成功的原因,可能也和训练数据有关,2021 年之后的治疗信息不包含其中)
对此,哈佛大学流行病学助理教授 Andrew Beam 认为,ChatGPT 和 GPT-4 的使用效果应该分两面看待:
一方面,它们要比一些普通的诊断软件或是谷歌搜索引擎更好用,尤其是 GPT-4 这个版本。
但另一方面,它们目前还不太可能取代具备大量专业知识的临床医生。毕竟对于 AI 来说,它们确实可能在找不到答案时捏造信息,根据“幻觉”推测出错误结果。
美国医学会(AMA)的主席 Jesse M. Ehrenfeld 对此表示,即使 AI 能诊断结果,最终的责任还是医生自己的。
总结一下上述观点就是,大伙儿可以用 AI 辅助诊断病情,比搜索引擎好用,但最终还是得去医院,找医生确诊。
那么,如果打算用大模型“问问诊”,哪个大模型最好用?
有网友就以自己为病例,测试了各种大语言模型是否具备诊断能力,最终认为还是 GPT-4 比较能胜任:
我曾经就慢性咳嗽的原因咨询过几位医生,但最终是在一个油管频道上得知自己患了 LPR(隐性咽喉返流)。
我用自己的病例测了测大模型,GPT-4 是唯一一个成功诊断的。Claude 2 虽然答案接近,但没能完全自主诊断出来。
你有尝试过用 AI 帮助判断病情吗?感觉效果如何?
参考链接:
[1]https://www.today.com/health/mom-chatgpt-diagnosis-pain-rcna101843
[2]https://www.reddit.com/r/ChatGPT/comments/16gfrwp/a_boy_saw_17_doctors_over_3_years_for_chronic/
[3]https://news.harvard.edu/gazette/story/2023/08/need-cancer-treatment-advice-forget-chatgpt/
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。