北京众星联恒科技有限公司

网站首页 > 新闻资讯 > 业界资讯

X射线自由电子激光的原理和在生物分子结构测定研究中的应用

2018-08-01 14:39:13 北京众星联恒科技有限公司 已读
1 X 射线的产生


X射线本质上是电磁波,其波长范围大致从0.01 nm 到 10 nm,与可见光(400—700 nm)不同,X 射线的短波长可以探测物质内部的精细结构,因此自从被伦琴发现以来就被用来观测物质的内部结构。随着人造 X射线光源的亮度和稳定性的提高,其应用范围涵盖物理、化学、生物、材料、医学等诸多领域。X射线的产生机制也是基于其电磁波的本性,下面简单比较一下电子射线管、同步辐射设施以及自由电子激光设施的原理和不同之处。


1.1 电子管


X射线最初是因真空管中阴极发出的某种射线遇到玻璃管壁发出荧光而被发现的(因为是未知的,故命名为 X射线;又因为伦琴最早发现这种现象,也被称为伦琴射线,Röntgen rays)。直至今日,电子管依然是产生 X 射线的最普遍的装置,其包含阴极和阳极两个电极,在真空或充气室内工作,电子在其中以高速撞击钨靶,产生 X射线轫致辐射(带电粒子与原子发生碰撞减速而产生的辐射)。电子管X射线源的最大问题是效率极低,其 99%的能量以热能的形式耗散,并且要求焦点小、强度大,需要对阳极进行冷却。为了降低焦斑的温度,后来出现了旋转阳极 X射线管和装有控制栅极的 X射线管。但电子管装置无法产生高强度、高偏振、相干性好的 X射线束,很大程度上局限了其在生物样品或材料学中的衍射和散射成像的应用。


1.2 同步辐射


在高能物理的研究中,电子在加速器中达到相对论速度,接近光速运动的电子在电磁场中发生偏转时,沿切向方向可以发出电磁辐射。这种电磁辐射的波长范围可以通过控制电子速度和磁场强度进行调制,比如可以使发射的电磁辐射主要为 X射线波段等,这种电磁辐射被称为同步辐射。同步辐射装置一般架设在环形电子同步加速器中,能够产出从远红外到 X射线波段的连续谱辐射光,并可以通过应用磁铁阵列实现大范围可调波长、高准直、高偏振性和高亮度的 X射线输出。同步辐射设施插入件一般分为两种:强磁场的扭摆器(wiggler),电子轨道扭曲大,曲率半径小,可以提高同步辐射光子能量;相对弱磁场的波荡器(undulator),电子轨道扭曲小,曲率半径大,可以提高同步辐射的亮度和相干度。


目前同步辐射光源共经历三代,第一代是高能物理实验对撞机的兼用机,第二代是在同步辐射专用储存环上建设的专用机,第三代是经过优化能产生高亮度准单色光的基于电子储存环的专用机。现位于上海的同步辐射光源(SSRF)即属于第三代同步辐射光源。利用 X射线同步辐射进行的生物大分子晶体学成像是一种非常成功的解析蛋白结构的方法,然而繁复的结晶过程却限制了这种高品质的 X射线在解析复杂的生物分子复合体或者具有高度柔性的分子的结构研究方面的应用。为了能够实现对微小晶体或单分子进行成像研究,且最大程度地减小辐射损伤(X射线的非弹性散射给样品注入额外的能量会产生自由电子基,破坏分子结构)带来的影响,一种新的成像模式逐渐发展起来,被称为“损伤前探测法”,也就是利用超短的 X射线脉冲对样品进行超饱和攻击,把几万亿的光子压缩到几飞秒的脉冲内发射到样品上,在这么短的时间内,X射线的破坏作用不会完全展现出来,理论上可以突破传统测量方法的极限。类似于武侠小说中极锋利的宝剑,明明已经刺穿敌人,而敌人却还不知道。自由电子激光就是我们在结构生物学探测中的神器。


1.3 自由电子激光


X射线自由电子激光(XFEL)亦被称为“第四代光源”,其亮度更高,全相干,可调谐并且以超短脉冲形式发生。自由电子激光器由直线电子加速器、屏蔽装置和扭摆器构成。为了产生自由电子激光,被加速至准光速的电子束通过周期性横向磁场(扭摆器)产生摆动从而形成正弦状路径,电子因扭转运动发射电磁辐射(图1)。初始的电磁辐射是低能且不相干的。足够长的扭摆器阵列使得电磁辐射与电子束产生长时间作用,在自放大自发辐射(SASE)模式下电子沿运动方向群聚成为尺寸接近光波波长的周期性束团。在此过程中,束团将自身动能转化为光场能量,增大光场振幅直到饱和输出,得到自由电子激光。自由电子激光的中心频率取决于输入电子能量和扭摆器参数,频率带宽取决于扭摆器的周期数。目前美国LCLS、欧洲European XFEL、日本SACLA以及瑞士SwissFEL都是基于自放大自发辐射原理的XFEL装置。


北京众星联恒科技有限公司

图 1 自由电子激光扭摆器原理。从加速器输出的高能电子束输入到扭摆器中,在SASE模式下工作,产生激光(图片根据 European XFEL 资料修改,https: //www.xfel.eu/facility/overview/index_eng.html)


然而,在原生 SASE 模式下产生的 X 射线自由电子激光时间相干性较差,也即单色性不好;为了解决这个问题,需要输入相干性较好的种子激光到电子束中(seeding),并结合谐波产生技术,输出全相干的 X射线自由电子激光。常用的谐 波 产 生 技 术 包 括 高 增 益 谐 波 产 生 技 术(HGHG),回声型谐波产生技术(EEHG)以及相位汇聚谐波增强技术(PEHG)。


目前最为先进的欧洲 XFEL 装置,其输出最短激光波长 0.05 nm,脉冲时长 10—100 fs,重复频率 27 kHz,平均亮度达到 1025 photons/(s∙mm2∙mrad2∙0.1%bandwidth)。位于美国的LCLS,输出最短激光波长 0.15 nm,脉冲时长 20—120 fs,重复频率 120 Hz,平均亮度为 1022 photons/(s∙mm2∙mrad2∙0.1%bandwidth)。高重复频率光脉冲和精细的探测设备导致实验过程中产生巨大的数据流量,这给数据的传输、存储和处理带来了巨大的挑战。


2 X 射线自由电子激光的应用


2.1 自由电子激光的成像原理


XFEL 成像的物理原理是光子与物质中电子的相互作用导致样品对 X射线激光的散射,而散射的强度分布函数则可以用来反推电子云的分布,也就是样品的三维结构信息。


对于空间中某个取向的单颗粒来讲,其成像过程是相干衍射成像,满足光的远场衍射(夫琅禾费衍射)定律。探测器探测到的图样,是紧贴样品后透射光波场的傅里叶变换强度;由衍射定律可知,空间分辨率决定于光子的最大散射角,也即越靠近探测器边缘,其对应的空间频率越高,同时信号也就越弱。


对于晶体样品来讲,晶格中规律排布的颗粒于某些方向上的散射在传播过程中相干叠加,在探测器上形成布拉格衍射点,依据大量布拉格峰的位置和强度信息可以解析出样品结构。晶体的衍射信号强度与晶体中电子数平方成正比,故一个边长为10个立方体晶胞的晶体的衍射强度为单个晶胞散射强度的 100 万倍,因此利用晶体衍射,即使非常小的晶体也可以有效地测量高分辨率数据。


2.2 损伤前探测


在生物大分子成像的起步阶段,辐射损伤是限制分辨率极限的重要因素。虽然通过结晶或超低温测量等手段有效地缓解了这一问题,但对于生物分子而言,X射线衍射成像的分辨率极限与辐射剂量成四次方反比关系,辐射损伤对于高频信号的影响不可忽视。然而Neutze等人在2000年发表在《自然》上的论文中根据动力学模拟的结果提出超短强激光下可以实现损伤前探测的想法。这个猜想被兴奋的科学家们在德国 DESY和美国 LCLS的自由电子激光设施开展的实验证实。在这些实验中,飞秒量级的超短 X射线脉冲都可以在样品被完全电离前产生相干衍射图像,极大地降低甚至避免了辐射损伤对成像的影响。


图 2所示是 2006年 Chapman等人在 FLASH(位于德国汉堡的软 X 射线设施)光源进行的首次损伤前探测试验的装置和结果。实验采用了宽25 fs、波长32 nm,功率密度达4×1013W/cm2的软 X射线,激光通过刻有图案的氮化硅薄膜并在 CCD 探测器上成像。研究人员成功地得到了样品损伤前和损伤后成像的数据,并展示了样品受到辐射损伤的情况。


北京众星联恒科技有限公司

图2 FLASH X射线相干衍射实验和辐射损伤效应 (a)试验装置示意图;(b)飞秒脉冲的相干衍射成像图。为了让强激光通过,数据中心部位是缺失的;(c)20 s后相似能量和时长的脉冲相干衍射成像图,可以看出首次脉冲对样品造成了辐射损伤;(d)根据(b)图重建出来的样品。


目前典型的利用 XFEL 方法解析结构的装置主要由 XFEL产生设备、样品注入器、快速读取探测器和数据存储及高性能计算机组成(图3)。


北京众星联恒科技有限公司

图3 利用XFEL进行“损伤前探测”。


样品注入器有气相注入和液流注入两种,即通过气体或液流将样品颗粒加速、汇聚并喷射到真空室中与 X射线作用。为了降低真空中蒸腾降温对样品造成的影响,X光照射位点需十分接近喷嘴位置,样品注入和光脉冲都可以持续进行,不需要中断。气相注射器将样品汇聚到直径几十微米流速 100 m/s 量级的气体束流内,在喷射过程中可以有效蒸腾样品表面的水分杂质,一般用于单颗粒散射成像;缺点是 X光的样品击中率很低,目前 LCLS 使用的气相注入器的平均击中率在 1% 到 10% 之间。液相注射器束流最窄可低于800 nm,且流速只有 10 m/s量级,故击中率相对较高,但会产生水的散射噪声,一般用于信号强度较高的晶体衍射成像。


前文提到,XFEL 成像实验产生的数据量是惊人的。目前一次实验产生的原始数据高达 10—100 TB,而正在建设的 LCLS-II 和上海自由电子激光器预计将会产生每秒百 GB 量级的数据流,如此高密度的信息汇聚将对数据的传输、存储和分析提出巨大的挑战。然而,因为 X射线脉冲较低的击中率,在海量的数据中,大部分数据实际没有记录有效信息。对于单颗粒成像,由于光束直径在 0.1 μm到几个微米的量级,比一般颗粒样品直径稍大,会产生大量多颗粒散射数据;样品表面附着的杂质层(主要是水分子)也无法完全除去,无法避免非样品的散射噪声。同时,探测器故障也会导致很多数据报废无法使用。


为了缩小数据量,首先要进行“命中筛选”(hit-finding),将记录有效信息的图样保留下来。这个过程一般可以将原始数据减少 90%左右。在数据处理阶段,则根据需要进一步进行甄选。另外,因为探测器得到的是二维强度图样,无相位信息,故三维结构的重建算法需要 3个步骤:数据挑选、三维重组和相位恢复。


一般来讲,根据样品状态和实验设置的不同,XFEL 结构学研究主要有两种具体的方法,分别为单颗粒成像 (SPI)和串行晶体衍射成像(SFX),而这两种方法都可以通过与对样品激发装置结合进行动力学研究。到目前为止,单颗粒成像仍然有巨大的挑战,串行晶体学成像法已经较为成熟,具有时间分辨信息的动力学研究也已经取得重要成果。接下来将对这些应用和成果进行简要总结介绍。


2.3 单颗粒成像(SPI)


传统生物学成像手段都需要首先生长大分子晶体,这个过程十分困难,缺少足够的科学指导,很大程度上是基于有限的经验开展的一个艺术创作的过程。更重要的是,在晶体环境中,无法得到生理状态下的蛋白分子结构,也局限了对生物分子动力学和功能的研究。由于 XFEL可以产生能够与单个生物颗粒作用的高能窄脉冲,其单颗粒成像模式(Single Particle Imaging,SPI)就提供了这样一种可能,即在不结晶的基础上对单个样品颗粒进行散射成像,利用全同的样品颗粒,在不同的空间取向探测样品结构信息,通过整合拼装并且模型重构得到其在三维空间的电子密度分布,抓取生理环境下的结构特征。


SPI 的实验样品一般为体积较大的生物样品或纳米颗粒。生物样品例如拟菌病毒、RDV 病毒、 PR772 病毒、 T4 噬菌体等,纳米颗粒如nanorice、 纳 米 哑 铃 型 颗 粒 、 核 壳 异 构 体 等 。Seibert 等人进行的拟菌病毒 X 射线散射实验是LCLS最早的实验之一,它证实了单颗粒散射的可行性,并进一步表明使用过采样数据可以有效进行二维相位恢复。对实验散射数据进行 3D 重建的首次尝试是 2015 年 Ekeberg 等人完成的,实验样品为直径 0.45 μm 的拟菌病毒,重建使用了 198 张散射图,得到 125 nm 的低分辨率结构,这与结构生物学领域关心的分辨率(比如原子分辨率)有很大的差距。


XFEL的全相干特性使得相干衍射成像(CDI)的技术可以应用到 SPI成像中来。对于理想球体的相干衍射理论计算表明,衍射图样的强度与空间频率呈四次反比关系,这导致高频信号与低频信号相比十分微弱。如果只考虑泊松噪声,类似冷冻电子显微镜中使用的平均方法可以有效提高信噪比;但真实情况中,附加噪声如读出噪声、热噪声和漏光等,会在探测器上产生高于一个光子的噪音输出,可以完全淹没远小于一个光子能量的高频实验信号。即使在包含 1013个光子、直径仅为 0.1 μm 的窄 XFEL脉冲下,理论上也无法得到低于纳米级别的高分辨率数据。对于高频信号来讲,其强度与入射光强和原子数成正比,所以使用较大的样品颗粒更容易产生有效的实验数据。


图 4 展示了 PR772 病毒的单颗粒实验散射图。数据挑选是重建过程的第一步,即将有效的单颗粒散射成像从海量的、包含有背景散射和多颗粒散射的实验数据中筛选出来。常用的方法一般是基于计算机视觉图像处理的,例如流行嵌入法和神经网络算法等。


北京众星联恒科技有限公司

图 4 PR772病毒颗粒的单颗粒实验成像图 (a)为非单颗粒散射成像,需要除去;(b)为单颗粒散射成像,用以重建


由于在成像过程中样品以自由状态注入,空间取向角未知,故倒空间(傅里叶空间)三维重构的重点在于计算散射图对应的空间取向。在全同颗粒的基本假设下,主要有3种方法。


其一为“共线法”。同一颗粒两个不同方向的散射强度平面(投影的傅里叶变换强度)一定在倒空间中相交,且交线过中心点。这样,当第3 个散射强度平面加入时,寻找它相对于前两个平面的交线,可以固定 3个平面的相对空间取向。“共线法”虽然计算迅速,但噪声对结果的影响很大,特别是高频信号较弱时效果较差。第二种方法为迭代的极大似然法,代表为 2009年 Loh和 Elser发表的EMC算法。算法在给定的初始粗粒模型下,评估实验数据与模型的不同角度投影之间的相似度,计算实验数据属于不同空间取向的概率,对模型进行迭代精细化。Ayyer 等人发布Dragonfly 软件包,完成了对算法的程序实现。Ekeberg等人对 mimi病毒颗粒的三维重建工作即使用了 EMC算法。第三种方法为 Ourmazd等人提出的流形嵌入法。对于同一物体来讲,越相邻角度的投影总是越相似的,故可以利用所有散射数据计算它们的相似矩阵,通过特征值分解等方法将其映射到低维特征空间,与空间旋转群在该空间的特征进行最小误差拟合,得到每张图片对应的空间取向角。当然,流行嵌入算法得到的特征向量也可用于对散射数据进行聚类。虽然这种方法有很多困难,包括空间角增量的映射效果、噪声影响和较高的计算复杂度等,但仍然取得了一些有意义的结果。如图 5 所示,2017 年Ourmazd等人使用扩散映射流型嵌入算法和 EMC算法处理 PR772病毒的单颗粒散射数据,得到了9 nm分辨率的三维电子密度结构,并且揭示了病毒在生理状态下的连续构型变化。


北京众星联恒科技有限公司

图5 单颗粒成像数据重建出的 PR772构型变化。


在 CDI成像中使用的基于投影的迭代算法可被用于单颗粒散射的相位恢复问题。算法的基本思想是将模型在实空间和倒空间之间不断投影,同时施加支撑集等已知约束,使模型在倒空间的强度最大程度地逼近实验得到的三维散射强度。常用的相位恢复算法已经在 Maia 等人开发的HAWK软件包中被实现,其中最著名的是Fienup提出的混合输入输出算法(HIO)和 Marchesini提出的收缩算法(Shrinkwrap)。


单颗粒散射的重建工作是建立在样品全同的假设之上,但一般来讲实验样品的形状无法达到高度均一,存在着尺寸差异和构型差异,例如Kassemeyer 等人在使用 nanorice 纳米颗粒的散射数据进行分析时,找到并重建出两个尺寸不同的三维模型。所以,在处理数据时有效地区分不同形状颗粒的散射图样是十分必要的。对于一些已知结构信息的纳米颗粒,利用精确的模拟数据与实验数据进行对比,可以有效地分析实验数据中颗粒尺寸的分布;而对于结构复杂的生物样品,借助粗粒化的电子密度模型,也可以通过对比模拟与实验数据在一定准确度下推算颗粒尺寸。


在单颗粒散射的基础上应用关联函数分析,可进行模型重构和优化。Kam提出的关联函数定义为

C2(q, ∆Φ) = ∫I(q,Φ)∙I(q,Φ + ΔΦ)dΦ , (1)

其中, I(q,Φ) 为探测器探测到的散射谱在极坐标系的强度。对所有空间取向的 C2 函数进行平均后得到的平均关联函数,包含着单粒子的结构信息,而且有效降低了高斯分布的 X光对信号的影响,提高信噪比。以平均关联函数为目标函数,通过逆向蒙特卡罗采样的方法可以迭代获得实空间模型。近期 Kurta等人使用关联函数法成功重建 PR772病毒的单颗粒模型,并将这一工作发表在《物理评论快报》。


目前,单颗粒成像法依然面临着诸多问题和挑战。其一是信号弱,尤其大散射角,也即高频部分的信号,在目前 XFEL的亮度下还没有办法达到理想信噪比,故无法得到原子分辨率级别的结构;其次是样品输送困难和命中率低,且实验装置无法避免水等杂质的散射信号对样品信号的干扰,导致实验样品浪费并产生大量的低质量数据。为了解决这些问题,LCLS 成立并领导了“单颗粒成像计划”的国际合作组织(SPI-i),希望加速SPI技术在XFEL领域的发展。


2.4 串行晶体衍射成像(SFX)


在同步辐射光源进行的大分子晶体学成像(Macromolecular crystallography,MX)是结构生物学最成功的成像方法之一,至今 RCSB蛋白质数据库(PDB)中有 89%的结构是使用 X 射线晶体衍射方法解析出的。然而,研究人员需要花费长达数年的时间去优化蛋白的结晶方案,以令其符合 MX实验所需要的晶体标准。而且由于 MX的原理是使用单个晶体在不同角度受到反复长时间的辐照,辐射损伤限制了分辨率极限。XFEL 的发展使晶体学成像突破了上述限制,其高亮度和损伤前探测的特点使得对微小晶体进行衍射成像成为可能,同时,超短脉冲还可以用来进行高时间分辨的动力学研究。


串行晶体衍射成像(Serial Femtosecond Crystallography,SFX)使用直径为亚微米到微米的晶体,晶体被裹挟在连续的液流中注入 XFEL 光路,不需要像传统 MX 一样对晶体角度进行测量。2011年Chapman等人首次报道了使用微晶进行 XFEL 衍射成像的尝试,实验在 LCLS 进行,使用尺寸 0.2—2 μm 的第一类光合作用系统蛋白复合物晶体样本,在 10、70、200 fs 的 XFEL 脉冲下成像。实验用X射线波长6.9 Å,单脉冲辐射剂量高达 3 GGy,最终得到 8 Å分辨率的重建结构。该 XFEL结构和传统 X射线方法得到的结构有着很好的一致性;同时,通过比较不同脉冲长度下数据的衍射强度分布,研究人员在 200 fs 的数据中发现了明显的辐射损伤。至今为止,SFX已经取得了诸多成果,例如2012年Boutet等人利用 LCLS的硬 X射线,得到了室温条件下 1.9 Å的溶 菌 酶 结 构; 2015 年 Suga 等 人 利 用 日 本SACLA装置解析出第二类光合作用系统蛋白复合物的1.9 Å结构等。


在传统的 MX 成像的重建算法基础上,SFX的数据重建比 SPI 要成熟得多,同样需要 3 个步骤:命中筛选、三维强度整合和相位恢复。


晶体衍射数据的筛选过程相对简单,即通过确定是否有明显的布拉格衍射点来判断数据是否为有效衍射数据。考虑到有效衍射可能来自多个不同空间取向的晶体,或未规则排列的低质量晶体,或不足以产生强信号的小晶体,我们需要进一步筛选,留下可重建的单晶衍射数据。常用的命中筛选软件有Cheetah、CASS和cctbx.xfel等。


三维强度整合分为两个步骤——指标化和方位强度积分。如图 6所示,样品颗粒在理想晶体中规则排布,但由于晶体尺寸有限(相对MX来讲SFX晶体更小),其倒易点阵强度不是理想的 δ 函数,而是类似于单颗粒散射的衍射斑纹。故首先需要在二维衍射图的每一个布拉格点周围一定范围内(ROI)对强度进行积分,并减去根据ROI之外的区域估计的背景噪声,作为该点强度值。


北京众星联恒科技有限公司

图6 平面晶体及其对应的倒易点阵示意图


三维倒易点阵采用3个指标(h,k,l )作为位置索引,称为米勒指标,而指标化就是将二维衍射图的布拉格点映射到三维点阵上的过程。常用的指标化方法只基于布拉格点的位置信息,包括 MOSFLM 软件包中实现的基于快速傅里叶分析的自动指标化算法和 REFIX 算法,以及 DirAx 半自动指标化算法。值得注意的是,当晶体的晶格对称性高于空间对称性时,只考虑布拉格点位置信息的指标化过程是存在歧义的,故必须引入对布拉格点强度的分析。一些算法已经可以处理这个问题,例如使用距离矩阵区分指标化结果的 BD 算法和基于极大似然思想的算法等。


SFX成像的过程实际是对三维倒易点阵布拉格点强度的采样,每一张衍射图只记录了部分布拉格点的部分强度,因为对于每一个布拉格点来说,只有被 Ewald球壁覆盖的强度才能被探测器探测(图 6)。由于 XFEL的带宽较窄,其对应的 Ewald球较薄,导致探测到的信息较少。故三维强度整合需要大量的从不同方位探测到的二维布拉格点,在成功指标化后,将相同指标的布拉格点强度累加,逼近真实的倒易点阵强度。这种方法称为蒙特卡罗方位强度积分。

研究发现,有效的后期优化算法(post-refinement)可以减少蒙特卡罗方法所需的衍射图数量,同时提高强度整合的准确性。所谓“后期优化”,即进一步精确每一个二维布拉格点所记录的部分强度。例如 White 和 Sauter 等人通过对部分衍射构建几何模型进行精细化,以及 Ginn等人提出的对束流面参数、晶格参数和晶格方位等变量进行迭代优化的方法等。


SFX的相位恢复方法有分子置换法(MR)、多波长反常衍射法(MAD)和形状变换法等。最常用的方法为分子置换法,它使用与样品结构相似的蛋白质作为参考模型,在此基础上做微小调整,解析实验样品结构。由于 SFX使用的晶体较小,MR方法需要慎重处理晶体外黏附的水等杂质。多波长反常衍射法利用硒代甲硫氨酸替代样品蛋白的甲硫氨酸,依据硒在不同束流能量下的反常散射对样品结构因子产生的影响,求解相位问题。晶体样品的衍射强度可以表示为

In(Δk)∝| F(Δk)|2|Sn(Δk)|2 , (2)

其中 F(Δk) 为与样品结构相关的结构因子,形成布拉格点的有效强度信息;而 |Sn(Δk)|2 导致布拉格点周围形成衍射斑纹,称为形状变化因子。如图 7 所示,形状变化法通过实验数据推算|Sn(Δk)|2 ,据此恢复样品的结构因子强度,并对其进行CDI成像中常用的直接相位恢复。


北京众星联恒科技有限公司

图 7 形状变化法相位恢复 (a)模拟数据,从左至右依次为:衍射图样、倒易晶格上的形状变化(调制)函数和调制后得到的结构因子强度;(b)光系统 I的 SFX实验数据,以相同的顺序排列。


以上应用于分子结构解析的重建算法,已经在 CrystFEL、cctbx. xfel或者 Phenix等软件中加以实现,极大地便利了科研人员的使用。相比于单颗粒成像来讲,串行晶体衍射成像无论是在硬件还是算法上都正在不断趋于成熟,相信在不久的将来,它将成为探索生物大分子高空间、高时间分辨率结构的有力工具。


2.5 时间分辨的动态研究


动态学研究是 XFEL 应用中最有希望产生可喜突破的分支,它极大地提高了实验所能够达到的时间分辨率极限。由于小晶体对于外界的刺激,例如光激发等,可以发生快速响应,一些样品就可以作为研究其在受到激发后动态变化的理想材料。


在 SFX损伤前探测的基础上,时间分辨成像可应用于可逆的以及不可逆的受激过程;而如果使用传统的 MX方法,只能探测重复性好的可逆受激过程。基于SFX的时间分辨成像需要蒙特卡罗方法进行三维散射强度整合,而相位恢复和模型重构过程则使用分子置换法(MR),因为对于很多情况来说,使用的样品基态模型是PDB数据库中已有的蛋白结构。


利用 XFEL 进行时间分辨成像的最广泛使用的技术是泵浦—探测技术,即在样品注入器和XFEL 光路之间加入泵浦光,对注入真空室的样品进行光激发,然后利用X射线成像(图8)。对于连续注入样品的串行晶体衍射来讲,为了保证激发与成像过程的一致性,需要使用宽聚焦的泵浦光,并精确控制泵浦脉冲与 XFEL 脉冲的时间,以同时提高时间分辨率和受激发样品成像的比例。同时,根据样品颗粒的流速调整泵浦光与XFEL 光路之间的距离,可以控制样品从被激发到成像之间的时间间距(以空间换时间),或者通过调整泵浦脉冲与探测脉冲之间的时间间隔(直接实现时间延时),都可以实现对样品在激发后不同时间点的观测。当泵浦光后于 XFEL发生时,可以探测样品的未激发状态(基态)。同时,由于样品受激前后的衍射数据变化幅度有限,为了降低其他噪声影响,需要额外的探测器探测入射光强度和能量展宽等参数,作为标准化依据。样品流速、泵浦光参数和测量精度等因素共同影响着最终的实验时间分辨率。


北京众星联恒科技有限公司

图 8 泵浦—探测技术示意图。


首个时间分辨的动态研究是2012年Aquila等人在第一类光合作用系统——铁氧还原蛋白共晶体上进行的],研究人员揭示了晶体在被激发5 μs 和10 μs 后发生的变化,并分析了实验结果与光诱导电子转移导致的光合作用系统和铁氧蛋白分离过程的一致性,但遗憾的是,这次尝试未能解 析 出 可 支 撑 结 论 的 蛋 白 质 结 构 。 2014 年Schmidt 领导的国际合作项目给出了细菌蓝光感光体光敏黄蛋白(PYP)的高空间、高时间分辨率结构,在10 ns 和1 μs 的时间尺度上揭示了PYP受到光激发后向反应中间产物转变的过程中电子密度的变化,并将空间分辨率提升到 1.6 Å。2016 年,Schmidt 团队把 PYP 动力学变化的时间分辨推进到 200 fs 以内,这是其他方法不能实现的。


除了泵浦—探测技术外,混合—注入技术也发展起来,用以研究不需要光激发、且反应周期通常较长的生物大分子配体结合问题。顾名思义,混合—注入技术即将受体蛋白晶体与配体混合后注入 XFEL光路,通过控制混合时间,达到时间分辨成像的目的。2016 年 Wang 等人使用混合—注入法对信使RNA核糖开关与腺嘌呤配体的结合过程进行了研究,在核糖开关的两种不同构型下得到了相同的反应 10 s的中间结合状态结构和反应10分钟的最终结合状态结构,并揭示了配体结合引起的核糖开关晶格结构的变化。作为对比,蛋白质数据库中已知的核糖开关配体结合结构(PDB代码4TZX)与实验解得的最终状态结构有着很好的一致性,证明了混合—注入 XFEL时间分辨成像方法的有效性。


3 总结与展望


从 2009年至今,XFEL在生物、物理和材料等领域得到了越来越广泛的应用,取得了很多重要的成果,这既得益于光源设施的发展,也得益于高精度、高通量算法和软件的开发。在结构生物学领域,XFEL 晶体成像方法发展迅速并且已经趋于成熟,利用其超短脉冲特性发展的高时空分辨率的动态成像研究也取得了许多突破性进展;然而,在单颗粒散射成像方面却依然存在分辨率瓶颈。随着能量更高、脉冲更短的欧洲XFEL设施和美国 LCLS-II等光源的建设和使用,新的实验设备和数据分析方法的发展,我们将拥有无限可能,同时也面对很多挑战。为了获得更广泛的应用和更精确的结果,未来 XFEL的技术突破将集中在这些方面:


(1)提高激光束流能量,同时尽可能降低辐射损伤,提高单颗粒散射的分辨率极限;


(2)控制样品均一性。生物样品具有一定的柔性,这是其实现功能的基础,但是也为数据分析造成了一定困难。样品均一性可以提高结构探测的精度,而必要的样品制备和蛋白质工程的技术可以帮助把分子锁定在某些稳定的形态;


(3)研发有效的样品注入设备,提高命中率并减少样品浪费。比如利用粘稠度高的载体(如LCP磷脂分子或者油脂)降低流速,或者把样品固定在对 X射线透明的底物进行快速扫描,还有利用静电排斥作用的方法产生样品流等方法都比最早开发的液柱喷流法有一定优势;


(4)设计高动态量程和快速记录探测器。这对于发展单颗粒散射和晶体衍射都非常重要,目前的做法是使用双探测器,并且调整为不同光电转换率来增大数据测量范围。将来的 XFEL产生的信号将以几十万赫兹的频率出现,配套的探测设备也需要跟进;


(5)设计和开发对快速输出的海量实验数据进行筛选和压缩的硬件和算法。海量数据的筛选越早完成就越有效率,可以降低对后续分析的计算压力。欧洲 XFEL光源甚至计划在探测器上就完成数据的初步筛选,这无疑是一个很好的出路;


(6)开发更精细快速的重建算法等。计算机技术的发展和超算机群的建设对于支持 XFEL数据处理至关重要,但是先进的软件也必不可少。在图像分析领域甚至图形重构方面,需要开发新的算法和思路来发展更好的软件。希望当前热门的深度学习能够提供很好的助力。


综上,我们有足够的理由相信,在生物分子结构研究中,XFEL 将继续发挥其特点,提供大量的数据和有价值的信息,尤其是在具有时间信息的动力学研究方面,有独一无二的优势,能够将实验数据与基于物理模型的分子动力学模拟的结果整合起来,最终提供完整的分子电影,满足科学家们的好奇心,并用于揭示生物分子的功能机理和对生物分子进行理性改造,造福人类。


致 谢 感谢孙昌璞院士的建议和鼓励。


本文选自《物理》2018年第7期

作者:时盈晨 刘海广 (北京计算科学研究中心)

Powered by MetInfo 5.3.19 ©2008-2018 www.MetInfo.cn