通过开发一种有效的方法来比较AlphaFold数据库中所有预测的蛋白质结构,研究人员揭示了不同物种蛋白质之间的相似性。这项工作有助于我们理解蛋白质进化,并揭示了人类免疫蛋白起源的新见解。

使用AlphaFold数据库揭示蛋白质进化的秘密

该研究由EMBL的欧洲生物信息学研究所(EMBL-EBI)、苏黎世联邦理工学院分子系统生物学研究所和首尔国立大学生物科学学院进行。

AlphaFold数据库是蛋白质研究领域的变革性资源,是所有已知蛋白质的人工智能预测3D结构的综合存储库。该数据库通过提供高质量的结构预测,填补了理解蛋白质功能和进化方面的关键空白。尽管人工智能预测不能替代实验确定的结构,但它们确实为科学界提供了宝贵的见解。

在这项发表在《自然》杂志上的研究中,研究人员开发了一种称为FoldseekCluster的新算法,可用于同时分析大量蛋白质结构。FoldseekCluster应用于AlphaFold数据库中的2亿个预测蛋白质结构,识别出超过200万个独特的结构簇,即三维形状彼此相似的蛋白质结构组。这些簇中有三分之一缺乏任何先前的注释,这意味着它们之前未被描述或分类。

缩小蛋白质科学的差距

蛋白质对于细胞中发生的过程至关重要。了解蛋白质结构对于研究其功能和进化至关重要。尽管基于序列的蛋白质结构预测取得了重大进展,但计算限制使得大规模研究这些结构变得困难。FoldseekCluster现在能够以前所未有的规模进行结构比较和聚类,从而将此类任务的时间缩短几个数量级。

首尔国立大学生物科学学院助理教授MartinSteinegger表示:“我们已经进入结构生物学的新时代,计算方法为探索蛋白质宇宙提供了前所未有的途径。”

“我们估计,使用现有方法对所有结构进行聚类需要十年时间,而使用我们的新方法FoldseekCluster只需要五天时间。我们的算法可以筛选AlphaFold数据库中数百万个预测的蛋白质结构,并根据它们的3D形状。计算能力的加速不仅使事情变得更快,而且使事情成为可能。”

蛋白质进化和免疫

该研究还深入研究了这些簇的进化意义。虽然大多数簇起源于古老,但大约4%似乎具有物种特异性。这为进化现象提供了新的见解,例如基因从头诞生——新基因从基因组的非编码区域产生。这项工作还举例说明了进化关系的几个例子,这些例子可以丰富我们对不同物种蛋白质功能的理解,包括它们在人类免疫中的作用。

苏黎世联邦理工学院分子系统生物学研究所副教授PedroBeltrao说:“这项工作不仅仅是为了更有效地进行比较,而是为了获得对蛋白质进化历史的新见解。”

“这项研究最有趣的发现之一是我们检测到人类免疫系统蛋白质与细菌中发现的蛋白质之间的结构相似性。这表明参与免疫系统的蛋白质可能具有与细菌物种相同的古老进化起源。如果属实的话,这可能会重塑我们对免疫的理解。我们的研究不仅推进了当前的知识,还为未来研究蛋白质功能和进化之谜制定了路线图。”

改进AlphaFold数据库功能

随着AlphaFold数据库和其他生命科学数据库的不断增长,非常需要帮助用户筛选大量数据,同时降低分析和管理这些数据的计算成本。FoldseekCluster算法等可扩展到数十亿个结构的方法对于帮助研究人员驾驭如此丰富的信息将具有无价的价值。

EMBL-EBI团队负责人SameerVelankar表示:“FoldseekCluster不仅仅是一项技术进步;它是一项增强功能,可以提升全球研究人员的整个AlphaFold数据库体验。”

“随着AFDB预测蛋白质结构的爆炸式增长,有效管理和导航这些数据已成为一项重大挑战,”他继续说道。“FoldseekCluster彻底改变了这一过程。我们正在努力将FoldSeek集群集成到AFDB中,以简化对大量蛋白质结构的分析,并使我们的用户社区更容易找到他们正在寻找的东西。”