全球性疫情要被终结？AI在其爆发之前就能阻止它

2020-03-07 10:45网易科技 - 网易智能、小小

去年冬天，随着流感季节的到来，全球各地的医疗机构都在加班加点地工作。美国疾病控制与预防中心(CDC)公布的数据现实，近几个月来，已有超过18万美国人住院，另有1万人死亡，而新型冠状病毒(现已正式命名为COVID-19)也以惊人的速度在全球蔓延。

对全球范围内流感疫情爆发的担忧，甚至促使2020年移动世界大会（MWC 2020）这样的盛会，在距离开幕仅剩7天时间宣布取消。但在不久的将来，人工智能（AI）增强的药物开发过程可以帮助以足够快的速度生产疫苗，并找到治疗方法，在致命病毒变异成全球性疫情之前阻止它们的传播。

传统的药物和疫苗开发方法效率极低。研究人员可以花费近十年的时间，通过密集的试验和纠错技术，对每个候选分子进行详细审查。塔夫茨药物开发研究中心2019年的一项研究现实，开发一种药物的平均成本为26亿美元，这是2003年成本的两倍多。而且，只有大约12%进入临床开发阶段的药物获得了FDA批准。

美国佐治亚大学药学和生物医学科学助理教授伊娃-玛丽亚·斯特拉克博士（Eva-Maria Strauch）指出：“你绕不过FDA，后者真的需要5到10年的时间才能批准某种药物。”然而，在机器学习系统的帮助下，生物医学研究人员基本上可以颠覆试错方法。研究人员可以使用AI来对大量候选化合物数据库进行排序，并推荐最有可能有效的治疗方法，而不是手动尝试每种潜在的治疗方法。

华盛顿大学计算生物学家S·约书亚·斯瓦米达斯(S.Joshua Swamidass)在2019年接受采访时称：“药物开发团队真正面临的许多问题，不再是人们认为他们只需在脑海中整理数据就能处理的那种问题，而是必须有某种系统方式来处理大量数据、回答问题并洞察如何做事。”

例如，口服抗真菌药物terbinafine于1996年上市，名称为拉米非，被用于治疗鹅口疮。然而，在三年内，有多人报告了服用该药物的不良反应。到2008年，已有3人死于肝中毒，另有70人患病。医生发现terbinafine的一种代谢物(TBF-A)是造成肝脏损伤的原因，但当时无法弄清楚它是如何在体内产生的。

这种代谢途径十年来始终是医学界的一个谜，直到2018年，华盛顿大学研究生Na Le Dang训练了一台关于代谢途径的AI，并让机器找出了肝脏将terbinafine分解为TBF-A的潜在途径。事实证明，创建有毒代谢物是个两步过程，而且这是个很难通过实验识别的过程，但用AI强大的模式识别能力却非常简单。

事实上，在过去的50年里，已经有450多种药物被从市场上撤下，其中许多药物像拉米菲尔一样导致肝中毒。这促使FDA推出Tox21.gov网站，这是个关于分子及其对各种重要人类蛋白质相对毒性的在线数据库。通过在这个数据集上训练AI，研究人员希望更快地确定潜在的治疗是否会导致严重的副作用。

美国先进翻译科学中心的首席信息官山姆·迈克尔（Sam Michael）帮助创建了这个数据库，他解释称：“我们过去遇到过一个挑战，本质上是，‘你能提前预测这些化合物的毒性吗？’这与我们对药物进行小分子筛查的做法正好相反。我们不想找到匹配的药物，我们只是想说‘嘿，这种(化合物)有可能是有毒的。’”

当AI不忙于解开十年来的医学谜团时，他们正在帮助设计一种更好的流感疫苗。2019年，澳大利亚弗林德斯大学的研究人员使用AI为开发一种普通流感疫苗提供增强效应，这样当人体接触到它时，就会产生更高浓度的抗体。从技术上讲，研究人员并没有“使用”AI，而是启动它，让它自己寻找用例路径，因为它完全是自己在设计疫苗。

该团队由弗林德斯大学医学教授尼古拉·彼得罗夫斯基(Nikolai Petrovsky)领导，首先建立了AI Sam(配体搜索算法)。AI Sam接受的训练是区分那些对流感有效和无效的分子。然后，研究小组训练了第二个程序，以生成数万亿个潜在的化合物结构，并将这些结构反馈给AI Sam，后者开始决定它们是否有效。

然后，研究小组挑选出排名靠前的候选化合物结构，并对他们进行了物理合成。随后的动物试验证实，增强后的疫苗比未改进的前身更有效。最初的人体试验于今年年初在美国开始，预计将持续12个月。如果审批过程顺利，增强版疫苗可能在几年内公开上市。对于只需要两年(而不是正常的5-10年)就研发出来疫苗来说，这绝非坏事。

虽然机器学习系统可以比生物研究人员更快地筛选巨大的数据集，并通过更脆弱的联系做出准确的知情估计，但在可预见的未来，人类仍将留在药物开发循环中。毕竟，人类需要生成、整理、索引、组织和标记所有的训练数据，并教授AI他们应该寻找的东西。

即使机器学习系统变得更有能力，当使用有缺陷或有偏见的数据时，它们仍然很容易产生次优结果，就像其他所有AI一样。Unlearn.AI创始人兼首席执行官查尔斯·费舍尔博士(Dr.Charles Fisher)在去年11月写道：“医学上使用的许多数据集大多来自白人、北美和欧洲人群。如果研究人员在机器学习中只是用这样的数据集，并发现某个生物标记物来预测对治疗的反应，就不能保证该生物标记物在更多样化的人群中发挥作用。”为了对抗数据偏见带来的扭曲效应，费舍尔主张使用“更大的数据集、更复杂的软件和更强大的计算机”。

另一个重要组成部分将是干净的数据，正如Kebotix首席执行官吉尔·贝克尔博士（Jill Becker）解释的那样。Kebotix是2018年成立的初创公司，它将AI与机器人技术结合起来，设计和开发奇异的材料和化学品。

贝克尔博士解释说：“我们有三个数据来源，并有能力生成我们自己的数据。我们也有自己的合成实验室来生成数据，然后使用外部数据。”这些外部数据可以来自开放期刊或订阅期刊，也可以来自专利和公司的研究伙伴。但贝克尔指出，无论来源如何，“我们都花了很多时间清理它。”

美国先进翻译科学中心的首席信息官山姆·迈克尔（Sam Michael）也称：“确保数据具有与这些模型相关联的适当元数据是绝对关键的。而且这不是随随便便就能发生的，你必须付出真正的努力。这很难，因为这个过程既昂贵又耗时。”

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。