以大模型加速新药研发，成本降低70%：一家大厂的「云端」实战（1）

机器之心 | 2023-05-20 16:52:18 阅读：265

最近几年，AI 加持下的新药研发成为被寄予厚望的赛道之一。

从流程上看，药物研发分为药物发现、临床前研究、临床研究、审批与上市四个阶段。医药界有一个「双十定律」的说法 —— 即需要超过 10 年时间、10 亿美元的成本，才有可能成功研发出一款新药。即使如此，也只有约 10% 新药能被批准进入临床期。
目前，AI 技术的参与主要集中于药物发现阶段。挑战在于，虽然 AI 技术加快了一部分工作的推进速度，但 AI 技术与药物研发的 “联姻” 并不是一蹴而就的，囿于算法低效、数据割裂、数据安全、算力瓶颈等挑战，药物研发仍然是一项高风险、长周期、高成本的工作。
鉴于「AI 新药研发」还处于待普及阶段，学界和业界都在探索一种更好的技术落地模式。数据、算法、算力，并列为人工智能技术发展的三大要素，也在某种程度上决定了 AI 新药研发能够以何种速度走到最后一步。研发团队需要具备的条件很多：大量数据资源、充足的算力以及强大的技术积累。在这样的情况下，在数据、算法、算力三方面均有深厚实力的大厂似乎更能扛起这份责任。
路漫漫其修远兮，究竟该如何解决遇到的挑战？
盘古药物分子大模型，为新药研发提质增效
对于西安交大一附院的刘冰教授来说，「双十定律」给他带来的体会尤其深刻。
2020 年，刘冰教授所在的团队正在尝试研发一种名为「Drug X」的超级抗菌药。然而细菌的进化速度是非常惊人的，很多时候可能等不及一款新药上市，细菌就已经产生了对这款药物的耐药性。近四十年来，领域内都未有新类别、新靶点的抗生素出现，有些被超级耐药菌感染的病人甚至面临无药可用的局面。
「目前一款抗生素的研发费用平均能达到 16 亿美金，如果这款抗生素在还没有面世的阶段被发现了细菌对它的耐药性，就等于 16 亿美金直接打水漂了。」刘冰教授表示。
想要研制一款超级抗菌药，就相当于和「耐药性的产生」进行一场时间赛跑。
传统的药物研发方式显然是不够快的，我们可以粗略算一算：药物研发平均周期超过 10 年，其中先导药物的设计就需要 3 到 5 年之久。科研团队首先要从上亿个小分子化合物中找到对目标靶点最有效的那一个，在这个过程中，团队需要不断地修改药物结构来提高其活性和成药性。每一次更新药物结构都意味着合成路线、药效评估实验等系列方案的重设和验证。
彼时，刘冰教授刚回国不久，实验室还在建设中，他想要带领团队进行 AI 辅助药物设计，但在数据、算法、算力三方面都遇到了一些挑战。
与华为云的合作机会让他看到了新的可能。华为云在 2021 年正式推出了盘古药物分子大模型，这是当前业界参数最大的药物分子大模型，主要面向药物研发领域，提供结合预测、属性预测、分子优化与生成能力。
「在科研的整个过程中，可能一万次失败里面才有一次成功。像我们这样十多个人的团队，必须要依靠像 AI 这种新技术，才能绕开既有壁垒，走出一条新路。」刘冰教授表示。
刘冰教授所遇到的壁垒，也正是现阶段大多数科研团队和药企所遇到的挑战。而引入 AI 技术进行药物设计的提升是相当明显的：在「药物分子筛选」和「药物分子优化」这两大环节，华为云盘古药物分子大模型对 Drug X 的研发提供了重要帮助。最终，在 AI 大模型的加持下，Drug X 先导药的研发周期获得了数十倍的加速，从数年缩短到数月，研发成本直接降低了 70%。
这种飞跃式提升是如何实现的？简单来说，华为云盘古药物分子大模型接受了超大规模的化合物表征模型训练，预先对 17 亿个药物分子的化学结构进行了学习，并对药物分子结构进行预测、打分。实验结果表明，华为云盘古药物分子大模型的成药性预测准确率比传统方式高 20%，帮助科研人员省去大量药物设计的成本。此外，该模型还内置了高效的分子生成器生成了 1 亿个创新的类药物小分子筛选库，结构新颖性达 99.68%，为发现新药创造了更多可能性。

盘古药物分子大模型框架。图源：https://www.biorxiv.org/content/10.1101/2022.03.31.485886v1.full
「盘古药物分子大模型的训练前后花费两年的时间，华为云团队在模型架构设计及验证、大规模百卡昇腾 NPU 的训练都遇到过挑战，最后都一一解决了。」华为云 EIHealth 医疗智能体负责人乔楠博士介绍说。
在这一模型的打造过程中，华为云团队首创了名为「图 - 序列不对称条件自编码器」的架构，将药物分子结构转换成可量化的数值，可以更好地在数值空间定量地对药物分子结构与性质进行预测与推荐。在 AI 优先推荐的药物分子基础上，科研人员可直接选择评分较高的药物分子进行人工实验验证。
这一架构的灵感来源于人类认识化合物的两种方式：分子式和结构式。「我们教会 AI 用同样的方法学习化合物的分子式和结构式，设计了这样一个图和序列不对称的算法架构，它的两端采用的是两种不同的深度学习架构，图部分采用了图深度学习、图卷积的方法，序列部分采用了 Transformer 架构。」乔楠博士表示。

盘古药物分子大模型的图 - 序列不对称条件自编码器架构。

在缩短研发时间、降低研发成本之外，盘古药物分子大模型还能够对筛选后的先导化合物进行定向优化，通过更科学的药物结构设计，降低新药可能对人体产生的毒副作用。
在相关论文发表前，华为云团队对盘古药物分子大模型进行了多项测试，结果表明，该模型在化合物 - 靶标相互作用预测、化合物 ADME/T（吸收、分配、代谢、排泄、毒性）属性评分、化合物分子生成与优化等 20 余项药物发现任务上实现了 SOTA（性能最优），可赋能药物发现全链条任务。
正如乔楠博士所说，如果说相关领域内的科研是「科学」，那么盘古药物设计大模型就是「技术」，科学与技术与相辅相成，才能让基础发现快速转化为一个可以运用到实际场景的成果。在近两年的商用中，已有多家药企借助盘古药物分子大模型设计出了具备良好活性的新分子。
其中，微芯生物在肿瘤药物设计领域基于华为云能力，将药物设计效率提升 1/3，分子优化后结合能提升 40%，加速肿瘤领域药物研发创新研究。
旺山旺水在中枢神经系统创新药物的系列研发工作中，靶点发现效率提升 3 倍，分子设计实验时间及资金成本节省 60％以上，高靶向性化合物的优化设计和验证工作量降低五倍以上。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。