从“答题明星”到不靠谱的“癌症专家”，IBM Watson的问题到底出在了哪里？| 果壳科技有意思

1768字
需用时 03:32

从“答题明星”到不靠谱的“癌症专家”，IBM Watson的问题到底出在了哪里？

Eon-SF

这篇文章对人工智能专家是坏消息，但对于医生大概是好消息：IBM的当家AI——大名鼎鼎的Watson被爆出无法在现实中胜任医生的工作，给出了一大堆不可靠的医疗建议。

五年前Watson高调进军医疗领域，但它和它的团队最近日子并不太顺利，不仅经历过几次裁员，暴露出令人担忧的缺陷，还遭到合作伙伴的弃用。而这些事的背后，其实是整个医疗AI领域面临的困境：医学很复杂，AI不能做的还有很多，比如给癌症患者开药。

IBM Watson

尚不成熟的产品

STAT在上月末的报道中指出，Watson向医生提供“不安全和不准确的治疗建议”，这一结论得自IBM的内部文件。根据这份文件，训练Watson的数据并非全部来自真实患者，而是合成的案例或假设的患者。此外，Watson针对每种癌症给出的建议，也基于少数专家的专业知识，而不是医疗指南或医学证据。

文件中还提到这样的案例：一位肺癌患者伴有严重出血的症状，Watson给的治疗建议是化疗和“贝伐珠单抗”——一种可以导致“致命出血”的癌症药物。然而，经验丰富的医生不会给患者开这种药，以免加重病情。

官方称这只是测试方案，并未在真正的患者身上实施。但这并不能让人放心，因为Watson已经开始在各大医院“行医”了。

IBM公开表示，Watson能够为13种癌症提供治疗方案，为8万余名患者提供过帮助。全世界有230家医院使用该系统，其中包括宣武医院、中山大学附属肿瘤防治中心和复旦大学附属肿瘤医院等多家国内医院。

不过，《华尔街日报》最近的一篇报道披露，有12家IBM的合作方和客户终止或缩减了Watson肿瘤解决方案相关的项目。其实这也不算什么新鲜事，在花费6200万美元后，因为研究、数据和收益等方面的问题，MD安德森癌症中心早就和IBM分道扬镳了。

炒作的背后

还记得Watson是怎么出道的吗？2011年，超级电脑Watson在知识竞答节目中击败人类，这在当年绝对是轰动性新闻。而当“答题明星”淡出人们视线时，Watson凭借“癌症专家”又火了一次，摇身成为人工智能医疗的领军者。

Watson参加《Jeopardy!》节目。图片来源：美联社

在电子病历普及带来大数据的背景下，Watson健康部门和多家机构合作，期望Watson通过整合和分析医疗数据，为医生提供治疗建议等。很多机构和医生对Watson的到来感到相当兴奋，认为它有望缩短诊断时间，甚至能提供一些前所未有的全新见解。

一些研究结果似乎也证实Watson在某些方面的医疗前景。例如一项研究表明，专家需要会诊160小时的脑癌病例，Watson在10分钟内就给出了治疗方案。还有IBM高级副总裁约翰•凯利（John E. Kelly）最近提到的，Watson给出的乳腺癌治疗方案能达到和专家93%的一致率。

然而，Watson的真本事仍然令人存疑。一方面，现实环境要比实验设定复杂得多，这些研究的结果有多大的意义还不好说。而据STAT报道，IBM与合作方进行的研究甚至可能有偏向性，只会得出他们想要的结果。

另一方面，从使用过Watson的医生的反馈来看，Watson给出的建议并不实用，也没那么智能。《明镜周刊》就指出，德国两家机构的测试表明，在实际应用中，Watson连简单的症状都处理不好。如果医生输入胸痛，系统的诊断里甚至都没有列出心脏病和心绞痛等，而是一种罕见的传染病。

越来越多的专家开始质疑，Watson只是被炒作和营销夸大的产品。

一位纽约的医生表示，“Watson甚至无法辨别教材中的案例……优秀的实习生通常都能给出更好的治疗方案。”另一位医生甚至当着IBM的高管直言“该产品是一坨X”。

“Watson医生”的局限

要理解Watson能做到什么，做不到什么，我们需要先知道它是如何工作的。简单来说，当Watson获得足够多的数据时，能通过不断学习给出可能的答案。在这一过程中，当它给出正确或错误的答案时，我们要不断纠正它来提高准确率。这就意味着在训练之前，我们已经知道了正确答案。

图片来源：IBM

因此，通过X光扫描识别恶性肿瘤还不算太难，毕竟这两者的关系相对明确一些。但制定某种癌症的治疗方案会比较复杂，Watson要给出的东西未必是我们早就教它的。事实上，我们也很难教它。它既要“消化”一系列信息，例如并发症、医疗指南、临床数据、药物的效果和副作用等，又要找出它们之间错综复杂的关系，而其中很多东西我们自己都还没搞懂。

解决这些问题，Watson得借助于大量的医疗数据。但是根据IBM的内部文件，Watson使用的训练数据并不丰富，例如，训练肺癌治疗方案的数据仅有635例。更令人担忧的是，一些训练数据甚至都不是真的。如果这些数据能代表真实的患者还好说，否则其适用性会很有限。

Watson还需要提升系统的识别能力。当它扫描大量文件时，必然要识别复杂的信息并从中抽取关键内容。例如，患者的病历可能包含医生的大量注释，这些注释又是由简写和短语构成的，机器想完全理解它们并非易事。

最后，即使Watson只是辅助工具，我们也很难评估它对医疗决策的影响。它能在多大程度上影响医生的判断，我们又该如何应对误诊及其后果？进一步说，出了医疗事故后，谁来承担责任？从目前来看，这些问题都很难回答。

这些当然不只是Watson的局限，也是医疗AI领域的现状。虽然不断有新研究表明AI在诊断疾病方面的潜能和突破，不断有新的机构和创业公司进入这一领域，但其实我们离AI解决医疗问题还有很长的路要走。

更不用说，让人们信任AI看病，本来就是一件很难的事。毕竟有时候，有人连真正的医生都不相信。

（编辑：Ent）

参考文献：

STAT, IBM’s Watson supercomputer recommended ‘unsafe and incorrect’ cancer treatments, internal documents show
Wall Street Journal, IBM Has a Watson Dilemma
Der Spiegel, Medical Applications Expose Current Limits of AI
IBM, Dr. John E. Kelly III, Watson Health: Setting the Record Straight
Becker's Hospital Review, 4 reasons MD Anderson put IBM Watson on hold
MIT Technology Review, A Reality Check for IBM’s AI Ambitions
IEEE Spectrum, Layoffs at Watson Health Reveal IBM’s Problem With AI
IEEE Spectrum, IBM Watson Makes a Treatment Plan for Brain-Cancer Patient in 10 Minutes; Doctors Take 160 Hours
The Washington Post, Watson’s next feat? Taking on cancer
Nature, AI diagnostics need attention
Quartz, When artificial intelligence botches your medical diagnosis, who’s to blame?

The End

发布于2018-08-24，本文版权属于果壳网（guokr.com），禁止转载。如有需要，请联系果壳。

举报这篇文章

Eon-SF

科技编辑