清华新闻网4月15日电 药物研发的流程通常漫长且成本高昂,人工智能技术通过对药物数据的快速分析建模,成为了加速药物研发过程的重要技术手段。然而,现有的深度学习模型决策过程不透明,可解释性不足,无法可靠地应用在药物研发中。此外,模型还依赖于大量的有标签数据,但在药物研发的过程中,数据获取通常伴随着高昂的成本和漫长的时间等待,这导致药物标签数据极为稀缺。常见模型在这种场景下存在预测准确性低、数据需求量大、可解释能力弱的局限。为了应对这一问题,太阳集团tyc5997电子工程系姚权铭助理教授课题组以小样本学习技术作为突破口,研究提升模型样本利用效率的算法,使深度学习模型能快速泛化到只有少量有标签样本的药物研发相关任务上。
图1.(a)人工智能助力药物研发的重要挑战:可解释性不足和样本数量稀缺(b)现有的药物研发相关任务研究方法存在的局限
药物研发相关的典型任务——药物互作用(Drug-Drug Interaction,DDI)预测是临床研究的重要部分。目前大约有6.7%的住院患者面临药物副反应的困扰,大约有0.32%的住院患者面临药物副反应带来的生命危险。挖掘潜在的药物间相互作用对于加速药物研发过程和加强人民健康保障都有重要意义。该任务可以建模为药物-药物互作用网络上的链路预测问题。然而,由稀缺的药物标签数据构建的药物-药物互作用网络非常稀疏,传统数据驱动方法在这种场景下表现不佳。
图2.(a)小样本学习技术启发的基于流的图神经网络(EmerGNN)的框架(b)基于流的图神经网络(EmerGNN)在预测准确性、数据需求量、可解释能力方面与基线方法的比较
针对药物标签数据稀缺的问题,课题组采用了小样本学习的方法,在医药领域首次提出了有效的深度学习方法——“药物相互作用的知识子图学习方法(Knowledge Subgraph Learning for Drug-drug Interaction Prediction,KnowDDI)”和“基于流的图神经网络与生物医学网络的新兴药物相互作用预测(Emerging Drug Interaction Prediction by Flow-based Graph Neural Network,EmerGNN)”,这两种方法分别高效地实现了现有药物潜在互作用的发掘和新药物间反应的预测。
课题组在原始药物间反应图谱的基础上引入了生物医药网络(Biomedical Network),利用其中丰富的医药学信息,构建了新的医药图谱,有效解决了监督数据不足的问题。医药图谱信息丰富,但同时也伴随着众多的噪声,准确预测药物互作用需要排除噪声干扰,挖掘有效信息。因此,课题组从医药图谱中提取目标药物之间的关系路径作为子图,并为路径设置注意力权重,基于注意力机制建立基于流的图神经网络EmerGNN,以此完成关键知识的提取与知识传递,建立了药物互作用预测的完整框架(图2.a)。在公共数据集上的大量实验表明,提出的EmerGNN在预测准确性和可解释能力上显著优于基线方法,数据需求量显著降低(图2.b)。这些成果为药物研发中的药物互作用预测提供了有效的算法和工具,增强了算法的可解释性,展现了人工智能在医药领域的重要辅助作用。这些研究成果有望应用于候选药物筛选和临床试验,对于加速药物研发和促进人类健康具有重大意义。
相关研究成果以“药物相互作用的知识子图学习方法”(Accurate and Interpretable Drug-Drug Interaction Prediction Enabled by Knowledge Subgraph Learning)为题,近期发表于《自然·通讯(医药)》(Nature Communication Medicine)。百度研究员王雅晴博士为论文第一作者,姚权铭为论文通讯作者。以“基于流的图神经网络与生物医学网络的新兴药物相互作用预测”(Emerging Drug Interaction Prediction by Flow-based Graph Neural Network)为题,近期发表于《自然·计算科学》(Nature Computational Science),第四范式(北京)技术有限公司研究员张永祺博士为论文第一作者,姚权铭为论文通讯作者。研究得到国家自然科学基金项目的支持。
论文链接:
https://www.nature.com/articles/s43856-024-00486-y.pdf
https://www.nature.com/articles/s43588-023-00558-4
供稿:电子系
编辑:李华山
审核:郭玲