科研进展 | 浙江大学谢昌谕等团队合作开发了多模态深度学习系统,能够高效准确地标注酶活性位点发表时间:2024-09-03 22:41 酶作为生物化学反应的催化剂,在加速生命系统内外的化学反应中起着至关重要的作用。它们对促进生长、新陈代谢和疾病预防等维持生命的过程至关重要。酶的活性主要是由活性位点的三维结构决定的,它使酶能够特异性地与某些底物结合并催化化学转化。尽管DNA测序技术的进步使研究人员能够每天从不同的物种和来源获得大量的酶序列,但准确地注释活性位点仍然是一个重大挑战。UniProt数据库显示,尽管鉴定了超过4000万个酶序列,但这些序列中只有不到0.7%的序列在其活性位点上有高质量的注释。鉴于测序酶的年增长率巨大,通过实验技术对所有酶进行注释是不现实的。尽管已经开发出可靠的方法来注释酶的功能,并且已经有相当多的研究致力于开发预测蛋白质活性位点的算法,但仍然缺乏一种可靠、快速和健壮的工具来注释酶的活性位点。 这主要是由于预测酶活性位点的固有复杂性,因为这些工具需要精确理解酶与其特定底物之间的关系,以及反应的类型,并区分各种类型的活性位点。此外,高质量的酶活性位点注释数据很少。上述因素对传统的蛋白质活性位点预测工具提出了重大挑战。因此,准确预测酶活性位点的方法对于生物学、药理学和生物工程的各种科学研究至关重要。对酶反应的正确理解有助于推进药物设计和发现,阐明疾病机制,促进酶工程的进展。由于最近人工智能在计算生物学领域的深刻变革,构建可靠注释方法的困难可能最终会取得实质性进展。PLMs将氨基酸序列视为自然语言的类比,在大量蛋白质序列数据的自监督训练框架下,采用掩码语言建模方法,得出反映蛋白质特性的可学习特征。当前最先进的PLMs,已经提高了与酶功能预测相关的方法的性能。最近PLMs在预测酶功能和底物特异性方面的成功引发了对酶活性位点注释更具挑战性的任务的进一步探索。 EasIFA模型的架构图(图源自Nature Communications ) 现有的酶活性位点预测算法大致可分为三类:基于同源性和模板的方法和基于机器学习的方法。长期以来,同源性和基于模板的方法因其在鉴定酶活性残基方面的可靠性能而成为标准选择。BLASTp是这类算法中具有代表性和稳健性的一种算法,它通过序列比对来识别数据库中标注的与查询序列非常相似的酶序列,从而为活性位点的鉴定提供关键的参考信息。然而,为了获得更好的预测结果,这些方法需要一个覆盖与所查询酶序列相似的大多数序列的大型数据库。如果目标酶与知识库中的酶有很大不同,那么准确的预测就变得具有挑战性。近年来,基于深度学习(DL)的方法在酶活性位点注释方面取得了初步成功。鉴于酶对其底物的高度特异性,某些酶通常只负责催化一种或几种特定的化学转化。因此,酶催化反应的信息可以作为酶预测活性位点的附加特征。这些数据可以用来丰富深度学习(DL)模型可用的特征集。 针对现有酶活性位点标注算法面临的挑战,研究引入了一种基于DL的酶活性位点标注算法EasIFA。EasIFA的创新之处在于:(1)将PLMs与基于结构的表示信息相结合,生成更全面的酶结构信息描述;(2)开发基于原子距离感知注意机制的轻量级图神经网络,在更广泛的有机化学反应数据集上进行自我监督预训练,以表示相对有限的酶反应信息;(3)设计一个基于注意的、可解释的信息交互网络,将酶的表征及其催化的生化反应结合起来,完成活性位点注释的任务。通过多次计算验证,研究提出的EasIFA算法不仅在(1)定位活性位点和(2)标注活性位点类型的预测精度上优于所有基准算法,而且在预测速度上也表现出优异的速度。与主流的BLASTp算法相比,EasIFA算法的推理速度提高了10倍,召回率提高了7.85%。此外,与在催化位点预测任务中表现出相似性能的基于PSSM特征的图网络算法相比,EasIFA算法的推理速度提高了大约1400倍。 由于EasIFA在酶活性位点注释方面的高质量和异常快的速度,研究还基于该算法开发了一个用户友好的Web服务器计算工具,该工具可以在http://easifa.iddd.group上免费获得。此外,为了克服不同数据库中相同酶活性位点的标注趋势和标准的显著差异,研究还采用迁移学习方法尝试在具有不同标注特征和趋势的酶活性位点库之间进行知识迁移。EasIFA能够从大规模的、相对粗糙的注释数据训练过渡到高质量的、人工注释的酶催化位点机制数据集,保持高水平的预测精度。转移训练的EasIFA模型有望与EzMechanism等自动酶催化机制预测方法相结合,提高酶反应催化机制数据库的覆盖率。该方法超越了基于序列的BLASTp的局限性,具有显著的适应性和传输能力。研究还探索了EasIFA算法作为酶设计中催化位点监测工具的潜力,并开发了数据增强策略,将酶催化位点的知识扩展到更广泛的蛋白质空间。 |