蛋白质结构预测的边角故事

2020年底,AlphaFold2在蛋白质结构预测的CASP比赛中实现了高精度预测,使得一个平时默默无闻的小众学科变成了家喻户晓的明星。AlphaFold的成功是结构预测这个领域多年来的量变所导致的质变。其中二个重要的量变是从预测分类转变到预测连续的边和角(原子间距离和二面角)。这里,我主要讲讲首先实现的连续二面角的预测,以及它是如何触发了端到端的蛋白质结构预测这个连锁反应,并最终导致了革命性突破的这个故事。

图一:蛋白质的一级结构(A)、二级结构(B)、二面角的角度分布(C)和三级结构(D)的示意图。

蛋白质的氨基酸序列被称为蛋白质的一级结构(图一A),而序列所构成的肽主链的结构构象通常被称为二级结构。从结构形状来看(图一B),它大体可以分为三类:有规律的a螺旋状(helix)和b片条状(strand/sheet),以及无规线圈状(coil)。还有一种分法是根据主链的二面角来分。蛋白质主链的结构完全可以通过三个二面角f,y,和w来重建(图一A)。而w在绝大多数情况下是接近180度(平面)的,所以一般只需要f和y就足以决定主链的精细结构了,但是由于支链和主链原子之间的排斥,一些f和y角度是禁区,导致分布极不规则(著名的Ramachandran图,图一C)。历史上有一些研究把对应二级结构形状的角度进行分区,但是预测这些无明显规律的角度区域,与预测二级结构形状相比,没有明显的优势,所以自从1958年以来,二级结构的预测一直以预测三态:a螺旋,b片条状,和无规线圈为主,这样粗略化的二级结构是无法用来重建蛋白质主链结构的。

我于2000年来到纽约州布法罗大学做助理教授,不久我们组的博士后周宏毅就发展了一个基于模板的蛋白质结构预测方法SPARKS和SP3,并在2004年侥幸获得了国际蛋白质结构预测比赛(CASP)中基于模板预测的第一名(Zhou&Zhou,2004,2005A,2005B)。要进一步改进SPARKS方法就需要一个更加准确的二级结构预测来帮助搜索更匹配的远源结构模板,于是,我把这个任务交给了我们组新来的、有计算科学背景的以色列博士后OferDor。他通过优化普通神经网络使预测的二级结构达到了80%的准确度(当时最高)(SPINE,Dor&Zhou,2007A)。在做这个项目过程中想到,为什么不绕过粗略的三态二级结构,而直接去预测连续的二面角呢?也就是说把分类的问题(classification)变成回归的问题(regression)。于是就先试了一下y角,发现由于角度的周期性没有处理好(-180°=+180°),预测误差太大,平均54°(Real-SPINE,Dor&Zhou,2007B),我才明白过来:原来是自己初生牛犊不怕虎,想法太天真,难怪大家都避开直接预测连续的角度。

2006年,我离开纽约州的布法罗来到了印第安纳波利斯市的印第安纳大学做正教授,Ofer也回以色列创业去了。虽然之前对y角度预测不算成功,我仍旧不死心,就让生物物理专业出身的薛斌博士后继续这个课题,并将y和f一起预测,可以用来直接构建主链结构。他发现,通过对y角度的简单位移,让不容易预测的两端(-180°,+180°)移在角度分布少的地方,就可以把角度的误差一下子从54°降到38°,而f的误差为25°(Real-SPINE2,Xueetal,2008)。据我们所知,这是世界上第一个同时预测y和f真实连续角度的方法,并有相当的准确度。

不久EshelFaraggi博士和张社生博士加入团队,他们通过多态预测与真实角度预测的结合以及神经网络算法的改进,成功地把y角的误差进一步下降到33°。同时杨跃东博士利用他们所预测的连续角度和三态二级结构,证明了在预测三级结构中,连续角度是比粗略化的三态二级结构要好得多的约束,因为预测的角度有无规线圈区内的有用信息(图二,SPINEXI,Faraggietal,2009)。在当时,几乎所有比较成功的蛋白质结构从头预测方法都是通过结构碎片或者模板的组装来预测三级结构的(例如DavidBaker组的Rosetta,Skolnick,张阳组的TASSER,I-TASSER,许锦波的RaptorX,我们组的SPARKSX(Yangetal,2011)等等),而我们通过预测真实角度来建立、约束、和能量优化主链结构,完全不需要用蛋白质的已知结构或者已知结构碎片来作为模块,从而开创了一条新路(Zhouetal,2011)。

图二:预测的三级结构能量与结构准确度(RMSD)的关系:在不用约速(A)、用预测的有规律二级结构作为约速(B),用预测的、有规律二级结构区的角度作为约速(C),和用所有预测角度作为约速(D)所得的结果。这个结果表明:在无规线圈区所预测的角度对获得高精度结构(小RMSD)及其重要(摘自Faraggietal,2009),该结果在发表在2009年Structure后并没有能很快改变大多数人只利用预测的二级结构来约速三级结构的习惯。

2013年,我来到澳大利亚格里菲斯大学,我们组开始和格里菲斯大学的KuldipPaliwal教授合作,使用不同深度的深度学习方法来进一步改进角度的预测。Paliwal是国际著名的机器学习专家,他和他的同事(Dr.Schuster)是第一个提出被广泛应用的双向循环神经网络(Bidirectionalrecurrentneuralnetwork)。我们的第一篇合作论文(Lyonsetal,2014)第一次将深度学习应用于蛋白质连续角度预测,并把角度的直接预测改成先预测SIN和COS,再通过计算ARCTAN来得到真实角度,从而避开了角度的周期性。y角的误差从33°降到30°(3层隐藏层的SPIDER2,Heffernanetal,2015),到27°(4层隐藏层的长短期记忆双向循环神经网络SPIDER3,Heffernanetal,2017),到23°(>10层隐藏层的SPOT-1D,Hansonetal,2019),而f的误差也最终降到了16°;与此同时,二级结构的预测也接近了理论的极限(准确度86%)(SPOT-1D,Hansonetal,2019)。也就是说,通过这十几年的努力(2007-2019),我们把真实角度的预测从几乎无用的精确度变成了可以直接用来构建越来越可靠的主链结构(SPOT-1D,Hansonetal,2019,图三)。

图三:直接用预测的角度构建的不同类型的、40-氨基酸长的主链结构(摘自Hansonetal,2019)。

尽管如此,AlphaFold2明显是受到了AlQuarishi进行端到端结构预测的启发。不过它在这个基础上有新的创新:不再仅仅考虑粗粒化的主链,而是首先预测氨基酸残基的位置和氨基酸支链的二面角,以及残基之间的直接距离,再通过优化把残基连接起来、构成主链。这个创新抓住了蛋白质结构的稳定性是靠疏水支链的紧密堆积这个主要矛盾,避免了局部最优,实现了蛋白质结构预测的革命性突破(Jumperetal,2021)。我们注意到AlQuaris和AlphaFold2中主链或者支链二面角的预测也是通过SIN/COS到ARCTAN的变换来避免角度的周期性的。值得一提的是,从离散的二态接触图预测到连续的接触距离预测,许锦波教授在这方面作出了贡献。

综上所述,AlphaFold2在蛋白质结构预测上革命性的成功,是在点点滴滴的积累以及一环扣一环的进步之后才能一跃而成的。其中,从分类到连续真实二面角的预测是重要的一环,共进化信息所导致的精确连续距离的预测则是平行的另外一环,而由连续真实二面角构建蛋白结构所启发的、摆脱了能量函数的端到端预测则是关键点。综合这些阶段性成果,加上先支链后主链的预测是最后的临门一脚。

参考文献

1.AlQuraish,M.(2019).End-to-EndDifferentiableLearningofProteinStructure,CellSystems,8,292-301.

2.Dor,O.andY.Zhou,(2007A),Achieving80%ten-foldcross-validatedaccuracyforsecondarystructurepredictionbylarge-scaletraining,Proteins66,838-845.

3.Dor,O.andY.Zhou,(2007B).Real-SPINE:Anintegratedsystemofneuralnetworksforreal-valuepredictionofproteinstructuralproperties,Proteins68,76-81.

4.Faraggi,E.,Y.Yang,S.ZhangandY.Zhou,(2009).Predictingcontinuouslocalstructureandtheeffectofitssubstitutionforsecondarystructureinfragment-freeproteinstructureprediction,Structure17,1515-1527.

5.Hanson,J.,K.Paliwal,T.Litfin,Y.Yang,andY.Zhou(2019).Improvingpredictionofproteinsecondarystructure,backboneangles,solventaccessibility,andcontactnumbersbyusingpredictedcontactmapsandanensembleofrecurrentandresidualconvolutionalneuralnetworks,Bioinformatics,35:2403–2410.

6.Heffernan,R.,K.Paliwal,J.Lyons,A.Dehzangi,A.Sharma,J.Wang,A.Sattar,Y.YangandY.Zhou,(2015).Improvingpredictionofsecondarystructure,localbackboneangles,andsolventaccessiblesurfaceareaofproteinsbyiterativedeeplearning,ScientificReports,511476.

7.Heffernan,R.,Y.Yang,K.Paliwal,andY.Zhou,(2017).Capturingnon-localinteractionsbylongshorttermmemorybidirectionalrecurrentneuralnetworksforimprovingpredictionofproteinsecondarystructure,backboneangles,contactnumbers,andsolventaccessibility,Bioinformatics,33:2842-2849.

8.Jumper,J.etal.(2021).HighlyaccurateproteinstructurepredictionwithAlphaFold,Nature,596,583-589.

9.Lyons,J.A.Dehzangi,R.Heffernan,A.Sharma,K.Paliwal,A.Sattar,Y.Zhou,andY.Yang(2014),PredictingbackboneCαanglesanddihedralsfromproteinsequencesbystackedsparseauto-encoderdeepneuralnetwork,J.Comp.Chem.35,2040-2046.

10.Xue,B.,O.Dor,E.FaraggiandY.Zhou,(2008).Realvaluepredictionofbackbonetorsionangles,Proteins72,427-433.

11.Yang,Y.,E.Faraggi,H.ZhaoandY.Zhou,(2011)Improvingproteinfoldrecognitionandtemplate-basedmodelingbyemployingprobabilistic-basedmatchingbetweenpredictedone-dimensionalstructuralpropertiesofthequeryandcorrespondingnativepropertiesoftemplates,Bioinformatics27,2076-2082(2011).

12.Yang,Y.,J.Gao,J.Wang,R.Heffernan,J.Hanson,K.PaliwalandY.Zhou,(2018).Sixty-fiveyearsofthelongmarchinproteinsecondarystructureprediction:thefinalstretch“,BriefingsinBioinformatics,19,482–494.

13.Zhou,H.andY.Zhou,(2004),Single-bodyresidue-levelknowledge-basedenergyscorecombinedwithsequence-profileandsecondarystructureinformationforfoldrecognition,Proteins,55,1005-1013.

14.Zhou,H.andY.Zhou,(2005A),Foldrecognitionbycombiningsequenceprofilesderivedfromevolutionandfromdepth-dependentstructuralalignmentoffragments,Proteins.58,321-328.

15.Zhou,H.andY.Zhou,(2005B),SPARKS2andSP3serversinCASP6.”,Proteins(SupplementCASPissue),Suppl7152-156.

16.Zhou,Y.,Y.Duan,Y.Yang,E.Faraggi,H.Lei,(2011).Trendsintemplate/fragment-freeproteinstructureprediction,Theor.Chem.Accounts128,3-16.

资深研究员

人物|SingaporeanscientistatSZBaylab新加坡科学家为你揭秘RNA修饰

THE END
1.快乐8预测分析乐彩网的快乐8原创分析频道提供快乐8预测分析、快乐8专家预测,包含历史期号的推荐文章和号码参考,为彩民朋友提供参考。https://www.17500.cn/arts/list-1-kl8-604-1.html
2.快乐8预测号码快乐8开奖结果预测快乐8走势图表一定牛彩票网体育彩票快乐8资讯栏目提供快乐8技巧、预测、推荐、号码分析,快乐8选号技巧、预测号码和中奖新闻等相关服务。https://m.ydniu.com/info/kl8/
3.彩民之家彩票开奖结果查询彩票预测分析推荐甄爷精准预测快乐8命中14码 浪里淘沙3D命中直选 魏一笑排三命中直选 双色球 大乐透 双色球 +关注 2 九曲 特级 双色球一等奖7次 本人是资深彩民,致力于彩票研究多年,尤其对大乐透、双色球进行了深入的分析,对数字、大数据敏感性强,总结了多种有用的选号技巧供大家参考。 https://www.zhcw.com/ssq/caiminzhijia/2326997.shtml?ssqtt1
4.快乐8预测最准专家快乐8快乐8预测最准专家,接下来小编给大家介绍一下中国福利彩票快乐8游戏的更多玩法及快乐8的专家资讯推荐方案。https://vipc.cn/tags/kuaile8yucezuizhunzhuanjia
5.快乐8预测快乐8专家预测快乐8走势分析号码预测大神推单为您提供专业的福彩快乐8预测,号码走势,冷热号分析,专家杀号。权威专家分析福彩快乐8走势图,选号推荐,助您赢大奖。https://www.sanyol.cn/kuaile8
6.快乐8第23198期森伯预测:和值范围【快乐8预第23198期测最准确专家】 精选10码推荐:23 26 29 35 51 53 58 62 69 78 精选8码推荐:23 26 29 35 51 62 69 78 重点关注5码:26 29 62 69 78https://m.sohu.com/a/706615322_213554
7.「快乐8组选杀号」快乐8专家杀号定胆「3D之家」快乐8杀号定胆为彩民提供快乐8组选杀号、快乐8杀号、快乐8定胆、快乐8杀号定胆、快乐8胆码预测、快乐8独胆推荐等内容,方便彩民分析购买快乐8。https://zst.ssqzj.com/shdd/kl8-shahao.html
8.3D杀码3D杀号村杀码福彩3d最精准专家杀码2024326期福彩3D 8快乐8杀码报号 2024325期福彩3D 天边红尘落杀一码 2024325期福彩3D 桑榆非晚杀一码 第一页上一页12345下一页末尾页 热点关注 福彩3D图库今日彩票开奖七星彩开奖结果七乐彩开奖结果 双色球走势图双色球开奖结果查询双色球开机号3D胆码预测 https://www.cz89.com/ssq/item_53.htm
9.快乐8快乐8游戏由中福彩中心发行和组织销售,由各省福彩中心在所辖区域内销售。 快乐8游戏采用计算机网络系统发行,在各省福彩中心设置的福利彩票(视频型彩票除外)销售场所销售,每天销售一期。 快乐8游戏是指从1至80共八十个号码中任意选择一至十个号码进行投注,每一组一个至十个号码的组合称为一注彩票,每注金额人民币2元https://www.cwl.gov.cn/fcpz/yxjs/kl8
10.快乐彩迷预测文章列表彩宝贝专家快乐彩迷的预测文章列表,包括双色球、福彩3D、排列三、大乐透等彩种的免费预测和专家预测文章。https://expert.78500.cn/46693/list.html
11.python数据分析与挖局书籍openintrostatistics中文版还有人问我怎么找到这些书的电子版的。有个论坛,叫经管之家(原人大经济论坛)我觉得不少人应该都听说过吧,我在里面混了8,9年了。 --- 第一部分:数据科学家核心技能(Data Scientist Core Skills) 1. 概览(Overview): The Data Science Handbook: Advice and Insightshttps://blog.csdn.net/guangyinglanshan/article/details/77775837
12.福彩快乐8专业预测网站福彩快乐8专业预测网站 提供专业福彩快乐8预测、快乐8字谜、快乐8图谜、快乐8胆码、快乐8藏机图、快乐8杀号、快乐8开奖号查询及走势 https://www.97654.com/kl8.htmlhttps://m.800820.net/p/5379791.html
13.快乐8最新版app免费3.拥有大量的彩票数据信息和数据信息的专有分析并且更多的高级专家能够准确地预测彩票 4.您随时可以使用帐户详细信息,体验记录,跟踪号码记录,资金趋势和中奖状态 《快乐8最新版》软件测评: 用户能够通过这款软件,了解到最全面最详细的彩票信息,并且能够将你每一次的彩票购买记录线上保存,对于近几年的彩票中奖数字号https://www.1ting.com/ruanjian/365053.html