实现快速无监督解析冷冻电镜三维结构的软件—cryoSPARC(冷冻电镜获得三维结构的原理)
撰文:王有望 李承珉
作者为中科院生物物理所朱平组在读研究生。
一门伟大的科学技术想要造福全人类,需要通过很多科学家的努力来提升性能,减少成本,同时降低门槛,最终能让一个非专业训练的人能用较少的资源获得高性价比的成果。作为《自然·方法》(Nature Methods)盘点的2015年最受关注的技术,冷冻电镜(cryo-EM)三维重构技术也不例外。冷冻电镜方法早在1968年就开始发展,但是由于技术方法的瓶颈,一直只能做一些较低分辨率的结构解析工作。近年来,冷冻电镜技术飞速发展,不断突破,在分辨率上已经开始可以和晶体学相媲美。而且,由于其不需要结晶,对样品的均一性要求也相对较低,样品用量少,可重复性较高,加上快速冷冻能使生物分子尽量保持其天然结构状态,冷冻电镜三维重构技术已经成为结构生物学领域一颗亮眼的明星。
冷冻电镜三维重构技术革命性的突破主要来自两个方面:一是直接电子探测器的发明,二是高分辨图像处理算法的改进。前者从硬件上让电镜的图片质量和信噪比有了质的提升,将冷冻电镜带入了一个以电影的形式快速记录电镜图像的新时代,后者则从软件上将冷冻电镜分辨率推入到了一个全新的高度,甚至让高度柔性动态的样品的高分辨解析变得可能。
在直接电子探测器的帮助下,对于比较好的样品,一般自动收集1到2天的照片,就有可能获得足够解析到原子分辨率的优质数据。然而接下来,对数据的分析与处理,可能要花费一个专业人员数周以上的时间。对于一个包含数百万个颗粒,拥有多个构像分子量较大的数据,即使在高性能计算集群上,也可能要花费超过50万 CPU小时的时间。引入 GPU 加速技术是目前很多主流软件的选择,譬如Relion GPU版,在GPU的加速帮助下,已经大大缩短了分析计算的时间与成本。相对以前的软件需要的较多的人工干预,Relion非常简洁,对电镜新人非常的友好。事实上,相对简洁易用的Relion软件及其采用的基于最大似然概率方法的三维分类技术正是冷冻电镜革命性突破的重要推手之一。然而,即使是Relion的GPU版本,投入在分析计算的时间与资源,需要人工输入以及调整的参数数量,以及对一个比较正确的初始模型的依赖,依然还有提升空间(图1)。
图 1:RELION-2.0的计算流程。对颗粒进行快速傅里叶变换,与模型的傅里叶变换的每个取向(包括三维空间的3个旋转参数和平面内的2个平移参数)的切片进行比对,得出取向分布函数,根据分布函数加权重构出新的模型。
在2月6号在线发表的《自然·方法》上,来自多伦多大学和约克大学的研究小组介绍了他们新开发的一款名叫cryoSPARC的软件,用于快速无监督的冷冻电镜结构解析(rapid unsupervised cryo-EM structure determination)。与Relion等目前主流电镜软件相比,cryoSPARC引入了两个新的算法进行改良。第一个是随机梯度下降法(stochastic gradientdescent,简称SGD),用于快速寻找低分辨率的三维模型,可以从电镜数据上直接搭建初始模型。在冷冻电镜三维重构中,利用不同方法获得一个相对比较正确的初始模型并输入到Relion等软件来进行进一步三维分类和重构是一个较为常规的手段。而cryoSPARC则很好地集成了这个问题,不再需要人为去“告诉”以及干预它使用什么样的初始模型。这样也能比较好地避免人为给予的模型带来的模型偏向(model bias)。事实上,开发者们对于这个算法带来的优化非常自信,以至于他们将这套软件命名为cryoSPARC ,即“cryo-EM single-particle ab initio reconstruction and classification”的缩写,翻译成中文就是冷冻电镜单颗粒从头重构和分类技术。第二个算法则是分支界限最大似然优化法(branch-and-bound maximum likelihood optimization),用于改进颗粒对齐方式,减少冗余计算,从而节约大量计算资源以及加速高分辨率的重构步骤。Relion在这一步使用的是傅里叶空间的全局搜索和局域搜索结合的方式,先进行全局的暴力搜索,找到颗粒的比较正确的空间参数后再进行局域搜索,直到收敛。这种方法比较耗费时间,一直是Relion的限速步骤之一。分支界限法的引入和加速,使得原本复杂费时的冷冻电镜三维重构工作,现在有可能在相对简单配置的台式工作电脑上很快地完成。
这两大算法,并非研究者们原创。SGD算法在深度学习领域,尤其是图像识别与语音识别领域,应用十分广泛。SGD是针对非凸优化问题比较常用的算法。冷冻电镜单颗粒重构正是一个典型的非凸优化问题。它存在很多局域最优解,如果初始条件给的不好或者稍微出现偏差,便很容易陷入局域最优的状态。这给高分辨结构解析带来了很大挑战。SGD算法或许能带来一个新的思路。就如同一个登山的游客想从山顶快速到达山脚,比较有效的一种方法就是他每到一个点都环顾四周,总可以找到某个方向是梯度最大的,也就是坡度最陡。就这样,他总能找到一条路可以最快到达山脚。这便是经典的梯度下降法。然而如果这个山山谷比较多(即非凸问题),他也很可能会因为这个方法陷入到某个山谷,而无法到达地面。随机梯度下降则有可能会避免这个问题,他不会去测所有方向的梯度,而是每次随机选择某些方向,寻找梯度最小,到达新的位置后再随机寻找新的方向,直至最后收敛。虽然迭代到最终收敛需要的次数会比传统梯度下降法多,但是由于需要训练的数据少,可以大幅下降计算耗时,而且多次重复随机,可以有效避免局域最优问题。事实上对于非凸问题SGD算法也只能保证局域收敛,然而有意思的是,研究者们发现对于电镜数据,这种算法会有非常好的表现。
分支界限算法算法是一种在解空间树上搜索问题解的方法,使用广度优先或最小耗费优先的方法搜索空间树。假如你现在需要从一堆数中挑选最小的那一个。你可以对数据进行分组,例如A和B。如果你能够统计出A组的下界大于B组的某个值,那么你就可以放心大胆的将A组数据全部丢弃,然后对B组数据采用同样的方法。和二分法有些相似。冷冻电镜三维重构中的三维精修过程中最消耗资源的步骤就是统计每个颗粒与三维模型的每个取向上的似然度,然后做出取向分布函数(也就是Expectation步骤)。显然,如果对所有空间取向和所有傅里叶空间频率进行搜索是一个很巨量的计算任务,而且有可能会因为颗粒信噪比较低的原因,颗粒信息量的分配会出现错误。分支界限法的关键是如何分组并得到一个下界,这个下界要易于计算并且能够保证排除掉的一定不会存在最优解。研究人员给出的方法的假设是:如果一个颗粒在低分辨时就无法与低分辨模型很好的匹配,那么这个颗粒在高分辨时也是无法对齐的。所以第一轮全局搜索只统计低分辨信息,随后的搜索都是在局域完成的。这样,整个Expectation的步骤就可以很快完成,三维分类和三维精修就得到了加速。
为了测试这两大算法能否真正有效,研究者们对已发表的数套数据进行了测试,包括嗜酸热原体(Thermoplasmaacidophilum)的20S蛋白酶体,疟原虫(Plasmodium falciparum)的80S核糖体,以及amphipol-solubilized rat的TRPV1通道蛋白,以及嗜热菌(T. thermophilus)的V/A-ATPase酶。测试工具仅仅是一台配置了i7-5820K CPU处理器和一块单独英伟达特斯拉系列K40GPU显卡的工作站。对于电镜计算来说,这已经是非常简陋的配置了。然而就是在这样的配置下,研究者们花费几十分钟或数个小时,就可以完成整个重构过程。而即使是Relion GPU版,完成相同任务也可能需要数倍甚至十倍的时间。图二展示了他们测试使用的数据,每一步骤的时间以及最终到达的分辨率。虽然他们很好的节约了计算时间与资源,但是在计算的准确性上,丝毫没有降低,反而还能得到一些更好的结果。譬如对35645个TRPV1的颗粒数据耗时66分钟最终重构结果为3.3埃,略高于已发表的3.4埃结果。有意思的是,对于嗜热菌的V/A-ATPase的数据,使用cryoSPARC分类重构,最终得到三类状态,分别为6.4埃,7.6埃以及7.9埃。而已发表的结果里,只得到了两种状态,分辨率分别6.4埃和9.5埃。看来这种自主建初始模型的行为,可能对于分类会有不错的帮助(图2)。
图2:使用SGD算法和分支界限法的计算流程与耗时(ref.1)
虽然从研究者们测试的数据来看,集合了随机梯度下降法和分支界限法的cryoSPARC软件有着性价比极高的处理能力,然而在制约冷冻电镜三维重构的一些关键性问题上,譬如颗粒的取向优势和低信噪比等问题,并没有表现的比Relion更加优异。不过这掩盖不了它的强大,特别是如果该软件以后能在使用者自己的数据上有如同测试数据一样优秀的表现的话。借鉴使用别的领域成熟而且优秀的算法是大势所趋,尤其在人工智能深度学习快速发展的今天。相信在不远的未来,随着各领域的交叉融合,越来越多的不同领域的优秀人员加入到电镜技术的开发与研究,电镜这门伟大的科学技术将为人类带来更大的福利。
参考文献:
-
Punjani A, Rubinstein JL, Fleet DJ & Brubaker MA. cryoSPARC: algorithms for rapid unsupervised cryo-EM structure determination.Nat Methods, 2017, doi:10.1038/nmeth.4169
Nogales E &Scheres SH. Cryo-EM: A unique tool for the visualization of macromolecular complexity.Mol Cell, 2015. 58(4):677-89
Kimanius D, Forsberg BO, Scheres SH,& Lindahl E. Accelerated cryo-EM structure determination with parallelisation using GPUs in RELION-2.Elife. 5: e18722. doi:10.7554/eLife.18722
EDITORIAL, Method of the Year 2015,Nat Methods, 2016, 13(1). doi:10.1038/nmeth.3730
Bottou L. Large-scale machine learning with stochastic gradient descent. InProc. COMPSTAT’2010 (eds. Lechevallier, Y. & Saporta, G.).177–186 (2010).
注:中国生物物理学会设有冷冻电镜分会(全称为“冷冻电子显微学分会”, 原名为“生物超微结构显微成像专业委员会”),主办过多场冷冻电镜方面的高端学术研讨会,并打造了冷冻电镜技术培训的系列精品课程。
2017年生物物理学会将继续举办冷冻电镜研讨会及技术培训课程。有兴趣者请关注生物物理学会官网或微信公号 (ID: BPSC1979)。