首页 > 互联网 > 许锦波:AI蛋白质预测与设计

许锦波:AI蛋白质预测与设计

7 月 22 日,2022 CB INSIGHTS 未来健康论坛暨数字医疗 150 企业峰会在杭州未来科技城成功举办。该论坛由杭州市余杭区人民政府指导,杭州未来科技城(海创园)管委会联合《麻省理工科技评论》中国、CB INSIGHTS 中国共同主办,DEEPTECH 和云樾科技承办。

AI 蛋白质设计平台公司分子之心创始人、清华大学 AIR 卓越访问教授、北京大学 BIOPIC 访问教授许锦波介绍了蛋白质结构预测的发展历程,并对蛋白质结构预测和设计蛋白质研究成果进行了展示。

据了解,在过去很长的一段时间里,许锦波的工作都是在用计算的方法研究蛋白质,尤其是利用 AI 技术来预测蛋白质的三维结构和设计一些自然界中不存在的蛋白质。

许锦波表示,一直以来,蛋白质结构预测领域都是鲜有人问津。直到“人工智能预测蛋白质结构”作为一项突破性研究成果,在 2020 年入选《科学》杂志十大科学突破,次年被《科学》杂志评为 2021 年度十大科学突破之首,2022 年又被《麻省理工科技评论》评为十大突破性技术后,该领域才引起了更多人的关注。

许锦波说,细胞里面有三种非常重要的大分子,它们分别是 DNA、RNA 和蛋白质。其中,DNA 和 RNA 记录着遗传信息,蛋白质则是生命活动的主要承担者(执行各项功能)。所以若想了解细胞里面的功能,就需要知道细胞里面的蛋白质所起的功能是什么。而由于蛋白质的功能是由其结构所决定的,所以想要在原子层面上了解一个蛋白质的功能,就需要去了解这个蛋白质的三维结构。

“蛋白质结构预测”这个问题从提出至今发展了近 60 年。在这 60 年的时间里,“蛋白质结构预测”的进展始终缓慢。直到 2016 年,许锦波团队开发了一种新的人工智能算法,展示了人工智能可以预测蛋白质结构,才使得这个问题得以解决。

许锦波这样描述:一个拥有 20 种氨基酸的蛋白质氨基酸系列,若是用不同的字母来代替每一个氨基酸,那这个蛋白质氨基酸系列就可表示成一个由 20 个字母组成的字符串。那有没有一种算法,可以把氨基酸上面的每个原子的三维坐标给预测出来,让左边的字符串可以映射到右边的三维图形上?这个问题的定义看起来很简单,但实际做起来难度很大,这也是为什么预测蛋白质结构的研究,虽然发展了近 60 年,但一直难有特别大的进展。

能不能借助计算技术,用计算技术把蛋白质的三维结构算出来,替代用实验技术去测量?上个世纪六十年代,美国的生化学家埃弗森通过实验验证了该假设的可行性。从理论上来说,只要有了单个蛋白质的氨基酸系列,就可以把这个蛋白质的三维结构算出来。因为这项实验结果,埃弗森在 70 年代获得了诺贝尔奖。

尽管三维结构是由氨基酸序列确定的已经被验证,但一直以来,科学家都没有找到一个很好的计算方法来计算蛋白质的三维结构。

据了解,在过去几十年里,科学家发明了三种可以把原子三维坐标测量出来的实验技术。

第一种是晶体衍射,它拥有最早最古老的历史,也是这三种技术中能得到最精确测量数据的实验技术,但是晶体衍射技术有一定的使用限制,它需要每一个蛋白质都是长晶体才能进行测量;第二种是核磁共振,它能测出比较小的蛋白质三维结构;第三种是冷冻电镜,它是目前最流行的测量原子三维坐标技术。

许锦波说,虽然,这三种实验技术都能测量蛋白质三维结构,但是也存在很多问题。首先是耗时较长――从几个月到几年时间不等。其次是测量费用较高,这三种实验技术所使用的机器花费昂贵。再就是,这三种实验技术并不能测量出所有的蛋白质结构。“所以,我们需要寻求另外的技术来测量蛋白质的三维结构”。

自计算机发明以来,科学家始终在研究,能不能通过计算技术,而不是实验技术把蛋白质三维结构算出来。直到 2016 年,许锦波开发出第一代深度学习预测蛋白质三位结构的算法,大幅度提高了蛋白质的三维结构预测性能。

据许锦波介绍,该算法是由两种卷积神经网络构成:一个是一维的卷积神经网络,用来处理氨基酸序列;另外一个是二维的卷积神经网络,用来处理蛋白质和原子间的相互作用关系,亦或者是蛋白质里面两个残基之间的相互作用关系。

传统方法都是基于一些物理学的方法做模拟和采样。而由两种卷积神经网络拼在一起的第一代深度学习算法则不需要做模拟,也不需要做采样,直接就可以预测蛋白质的三维结构,并且预测出的效果比使用传统方法预测要好。

2020 年,谷歌旗下的 DEEPMIND 基于许锦波的第一代算法开发出第二代深入学习算法 ALPHAFOLD2。跟基于卷积神经网络的第一代算法相比,第二代算法在卷积神经网络基础上增加了注意力机制,这样它可以更好地描述远程残基之间的相互作用关系,在算法性能方面也有了更大的提升。

美中不足的是,第二代算法对计算资源有着极高的要求,需要占用极多的 GPU 资源,若没有足够的 GPU 资源,第二代深度学习算法训练也会难以开展。

许锦波表示,“现如今,我们已然能够比较容易地预测单个蛋白质结构,并通过蛋白质结构预测得以理解自然界中存在的蛋白质的不同功能。” 但这并不代表对于蛋白质的研究可以告一段落了,之后依旧还有很多问题需要去解决。

蛋白质在细胞中并不是单独起作用,多数情况下它是通过跟其它蛋白质分子或者是跟其它大分子,例如与 DNA、RNA 相互作用来实现某一功能。

这也意味着,想真正了解蛋白质的功能,同样需要了解单个蛋白质跟其它分子的结合物。例如,当两个蛋白质组合在一起时功能是如何实现的,当蛋白质跟 DNA、RNA 组合在一起时又是如何起作用的,抗体跟抗原又是怎么相互作用的。

在自然界中,通过进化而来的蛋白质数量是有限的,若是能通过“蛋白质设计”,设计出自然界中不存在,但更符合实际应用需求的蛋白质,将会更有助于人类的发展。

目前许锦波及分子之心已经向“蛋白质设计”领域迈出了一大步,开发出了 AI 蛋白质设计平台 MOLECULEOS。

第二个板块为能力层,主要包含各种功能模块,如蛋白质结构预测、蛋白质复合物预测,同时还可以对蛋白质进行设计和优化。

功能层之上为应用层,顾名思义,就是能够把功能板块应用到各种不同的蛋白质上,例如优化抗体,设计酶和多肽。

第四个板块是产品层,这个板块能把其他三个板块的能力产品化。比如说可以做出药物,也可以做出跟合成生物学有关的蛋白酶。

许锦波表示,基于 MOLECULEOS,分子之心开发了一系列新的人工智能算法。比如在不需要实验室的情况下就可以预测单点突变对蛋白质的影响,从而用以优化不同的蛋白质,比如说优化抗体,改造酶,甚至可以用来改造蛋白质。

比如,新的人工智能算法还可以设计蛋白质的整个氨基酸序列并折叠到给定的蛋白质骨架,也可以设计自然界不存在的蛋白质骨架,或者能量更稳定的蛋白质,使它在极端条件――比如高温条件下也能有稳定表现。

友情链接