"); //-->
百度飞桨凭借图学习框架 (PGL) 和生物计算平台螺旋桨(PaddleHelix),登顶权威榜单 OGB 多项分子性质预测任务,在 AI ****物发现领域取得新的技术突破。
化合物的生物活性筛选是现代****物研发中关键的一环,其主要目的是在大量候选化合物中发现针对某种****物靶点具有活性的分子。传统的活性筛选方法需要合成大量化合物用以进行生物实验,整个流程的成本高、周期长、成功率低。而通过 AI 技术进行****物的虚拟筛选有望代替传统的活性筛选方法,加速中间步骤从而大幅度降低研发成本。
国际权威榜单 Open Graph Benchmark(OGB)上的 HIV 和 PCBA 数据集包括多种生物活性实验。其中,HIV 数据集关注不同化合物是否能够抑制 HIV 病毒在细胞内的复制,PCBA 数据集关注不同化合物针对 100 多种疾病靶点的有效性。以其中能增强功能性 SMN2 蛋白表达的化合物为例,这些化合物能够改善因 SMN1 蛋白突变失效引起的脊髓肌肉萎缩。成功预测化合物这类性质对于发现针对多种疾病的有效****物具有重要意义。
近日,飞桨在 OGB 该两项分子性质预测榜单登上榜首,在 AI ****物发现领域取得了新的技术突破。
飞桨登顶 OGB 分子性质预测数据集 HIV 和 PCBA
基于飞桨能力实现分子性质预测
飞桨基于图学习框架 PGL,使用深度图神经网络(GNN),配合生物计算平台螺旋桨 PaddleHelix 对****物发现领域的理解,设计自监督学习任务学习化合物分子表示,并应用到分子性质预测中。核心技术包括:
分子表示学习
为了将化合物分子作为图神经网络方法的输入,需要首先将化合物分子特征化。OGB 已经针对每个化合物提供了一系列基于图结构的结点和边的特征,可以对应到化合物的原子和化学键,但这些特征都较为微观,无法表示化合物分子的宏观化学特性。飞桨通过表示学习的方法,首次将分子的宏观化学特性(官能团、分子指纹等信息)和图神经网络相结合,取得了融合宏观化学特征的分子表示,并利用这个分子表示取得了 ogbg-molhiv 的榜首。
图学习技术
APPNP 是基于个性化 PageRank 改进的特征传播算法,通过迭代的方式来近似 Personal PageRank 的解析解。APPNP 算法不引入额外的模型参数,能够很好地调节局部信息和多阶邻居关系。飞桨通过结合 GINE plus 和 APPNP 技术,在不引入额外的模型参数下,获得更好的模型表达能力,并取得 ogbg-molpcba 榜首。
飞桨图学习框架 PGL
百度深度学习平台飞桨 PaddlePaddle 开源图学习框架 PGL v2.0 版本,全面支持动态图机制,可支持百亿规模大图,用户可以通过 PGL 实现高效而又满足工业应用需求的图神经网络。PGL 支持的百度内外部业务也是遍地开花,全面覆盖推荐系统、搜索引擎、智慧金融、智能地图、安全风控、生物医****等场景。
生物计算螺旋桨 PaddleHelix
螺旋桨 PaddleHelix 是基于百度深度学习平台飞桨的生物计算平台。提供了包括 RNA 二级结构预测、大规模分子和蛋白质表示学习、****物靶点亲和力预测、ADMET 成****性预测等,在新****研发和疫苗设计环节具有广阔应用前景的技术能力。
螺旋桨 PaddleHelix 可以帮助生物学、****物化学、计算机交叉学科背景的学习者、研究者和合作伙伴更便利地构建 AI 算法模型。螺旋桨 PaddleHelix 生物计算平台将保持开源开放原则,与合作伙伴共建共享,未来形成一套完整的面向行业的生物计算生态和服务。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。