蛋白质是生命的物质基础,每个蛋白质的氨基酸链扭曲、折叠、缠绕成复杂的结构,想要破解这种结构通常需要花很长的时间,甚至难以完成。截至目前,约有10万个蛋白质的结构已经用实验方法得到了解析,但这在已经测序的数10亿计的蛋白质中只占了很小一部分。
在蛋白质结构解析的几十年历史中,X射线晶体学、核磁共振波谱学(NMR)、冷冻电镜(CRYO-SEM)技术纷纷发挥了巨大的贡献。同时,通过蛋白质的氨基酸序列来预测其结构这一设想也在50多年前就已提出。2020年底,谷歌旗下人工智能公司DEEPMIND的新模型ALPHAFOLD2带来了巨大突破,在蛋白质结构预测准确性方面达到接近人类实验结果,让整个结构生物学界震惊。
实际上,国内的学术界和产业界也在蛋白质结构预测领域紧追国际步伐。澎湃新闻(WWW.THEPAPER.CN)记者获悉,12月8日,北京深势科技有限公司(下称“深势科技”)宣布推出蛋白质结构预测工具 UNI-FOLD,这是蛋白质结构研究领域首款完全开源并成功复现大规模训练的工具。
据介绍,在相同的测试条件下,UNI-FOLD 的预测精度超越了华盛顿大学蛋白设计研究所DAVID BAKER教授课题组研发的ROSETTAFOLD,与DEEPMIND官方发布的ALPHAFOLD2模型接近。深势科技团队使用UNI-FOLD对CASP14蛋白预测任务中的序列数据集进行了直接测试,平均 CΑ-LDDT 达到82.6。此外,UNI-FOLD 的推理代码更加轻量、高效,在相同硬件环境下,能够获得与公布的ALPHAFOLD2代码相比2-3倍的效率提升。
UNI-FOLD预测的蛋白结构。灰色为实验结果;蓝色为预测结果。
深势科技方面提到,在过去一年里,团队克服了算法生态不佳、计算资源有限等难题,成功突破技术壁垒,复现了ALPHAFOLD2的训练过程,并决定将训练代码全部开源,让这项高精度的蛋白质结构计算预测软件真正惠及结构生物学领域研究者。
澎湃新闻记者此前报道,北京时间7月15日,DEEPMIND团队在顶级学术期刊《自然》(NATURE)以“加快评审文章”(ACCELERATED ARTICLE PREVIEW)形式在线发表了一篇题为“HIGHLY ACCURATE PROTEIN STRUCTURE PREDICTION WITH ALPHAFOLD”的论文,全面详述了2020年年底造成轰动的这一模型,并首次对外分享开源代码。
DEEPMIND团队当时向澎湃新闻(WWW.THEPAPER.CN)记者提供了一份声明,公司创始人兼首席执行官DEMIS HASSABIS在声明中表示,去年在CASP14大会上我们揭晓了一个可以将蛋白质3D结构预测精确到原子水平的全新ALPHAFOLD系统,此后我们承诺会分享我们的方法,并为科学共同体提供广泛、免费的获取途径。
“今天我们迈出了承诺的第一步,在《自然》期刊上分享ALPHAFOLD的开源代码,并发表了系统的完整方法论,详尽细致说明ALPHAFOLD是如何做到精确预测蛋白质3D结构的。作为一家致力于推动科学进步的公司,我们期待看到我们的方法将为科学界启发出什么其他新的研究方法,也期待很快能和大家分享更多我们的新进展。”HASSABIS表示。
也就在同一天,另一顶级期刊《科学》(SCIENCE)也在线发表了另一预测蛋白质结构的研究文章,题为“ACCURATE PREDICTION OF PROTEIN STRUCTURES AND INTERACTIONS USING A THREE-TRACK NEURAL NETWORK”。来自华盛顿大学、哈佛大学、德克萨斯大学西南医学中心等团队的研究人员开发了新的深度学习工具ROSETTAFOLD,其拥有媲美ALPHAFOLD2的蛋白质结构预测超高准确度,而且更快、所需计算机处理能力更低。同样,研究团队也对外分享了开源代码。
清华大学生命科学学院院长、高精尖中心执行主任王宏伟在接受澎湃新闻(WWW.THEPAPER.CN)记者采访时曾表示,“高质量结构预测的源代码开放对整个科学界尤其是结构生物学领域的促进作用必然是巨大的。”他评价道,对于DEEPMIND这样一家商业公司来说,“团队愿意向公众分享代码,是一个新型科研范式的突破,将整体上有利于人类更好地探索未知。”
不过,深势科技此次也提到一点,尽管DEEPMIND在半年后开源了ALPHAFOLD2模型的推理代码,但其训练代码并未被公布,且模型不可商用。研究者难以通过训练或调整模型进一步提升 ALPHAFOLD2 的表现,或迁移至更多应用场景,如蛋白质复合物结构预测、蛋白质与小分子相互作用、与电镜实验结合等。此外,该代码基于GOOGLE自研的可微分计算框架JAX及TPU硬件平台开发,高度依赖GOOGLE生态系统,造成了一定的使用限制。
深势科技的UNI-FOLD则克服了ALPHAFOLD2未开源训练代码、硬件支持单一、模型不可商用等局限性,在训练与推理环节进行了 NVIDIA GPU上的适配、性能优化及功能完善等工作,为更多人参与推动领域进一步发展提供了基础。
中科院院士、北京大学教授、深势科技首席科学顾问鄂维南表示,“尽管DEEPMIND开源了推理代码,但模型的训练技术才是核心竞争力。在资源比较匮乏的情况下,深势科技团队在较短时间内实现模型训练、开源训练代码,这是很不容易的。深势科技在物理模型方面具备丰富的经验,UNI-FOLD进一步弥补了团队在数据驱动方面的短板。下一步,物理模型和数据驱动结合的解决方案将为蛋白结构和药物设计行业提供更好的基础。”
对于开源,深势科技联合创始人兼首席科学家张林峰博士在接受澎湃新闻(WWW.THEPAPER.CN)记者专访时曾表示,开源实际上是一个协同的研发,让各行各业的人用,其实也是接受各行各业的评审。“解决方案都是一个不断融合的过程,融合的过程中一定会有很多频繁地从实践中抽象问题、解决问题,再反作用于实践的这样的一个迭代的过程,我们也是希望通过开源社区能够快速地把事情做好。”
据悉,过去三年,深势科技致力于推动DEEP POTENTIAL系列开源解决方案的普及与DEEPMODELING开源社区的发展。目前,社区中的开源软件已得到国内外一千余个研究组的近万名科学家使用,涉及物理、化学、材料、生物、地质等多个领域,形成了良好的“飞轮效应”。
目前,UNI-FOLD相应解决方案已集成至深势科技自主研发的药物设计平台 HERMITE。深势科技方面称,作为药物设计的第一环节,UNI-FOLD 将与深势科技AI辅助计算模拟的算法有机衔接,并与电镜实验技术相结合,为药物设计领域打造一套模拟-AI-实验三者驱动的解决方案。
深势科技成立于2018年,致力于以新一代分子模拟技术解决微观尺度工业设计难题,以打造切实服务于药企、材料商和科研机构的模拟研发平台为主要业务方向。该公司核心团队由中国科学院院士鄂维南等人领衔,主要来自世界一流高校、科研机构和企业,科研队伍由物理建模、数值算法、机器学习、高性能计算及药物和材料计算等多个领域的数十名优秀青年科学家构成。