数据与计算驱动的蛋白质元件预测和设计

中国科学技术大学生命科学学院

刘海燕 陈泉 龙朋朋 黄斌 许洋 陈耀晞

合成生物学研究用现代工程学方式构建人工生物系统,以更全面地发现和验证生物系统的设计原理,并服务社会需求。如同天然生物系统,在合成生物系统中,蛋白质仍然是最主要的功能执行者。例如,在感知处理环境信息并做出适应性响应的智能细胞中,负责信号感知的受体和负责整合内外环境信号、决定激活或抑制特定细胞功能的信号传导蛋白和转录因子等,绝大部分都是蛋白质;在用于人工生物合成的细胞工厂中,代谢通路中的生化反应都需要作为酶的蛋白质来催化。

目前,绝大多数人工生物系统是基于天然蛋白质元件及其已知相互作用方式来构建的。例如,原核体系中,不同功能基因线路广泛使用少数几种已被较好表征的转录因子作为基因开关;人工生物合成路线主要用天然酶完成对特定底物的特定催化步骤等。这种方法的优点是,基于对天然蛋白质性质相对较为深入的了解,研究工作可能有较高的效率和成功率。然而,如果仅限于利用已知的天然蛋白质元件,合成生物体系的规模、适用范围等会受到极大限制,如体系能响应的化学信号有限;人工生物合成的底物选择性、反应选择性等受制于可用的酶;此外,环境对人工体系的干扰或人工体系不同部分之间的干扰受制于天然蛋白质的特性,且随系统规模增大,这种干扰的可能性快速增加。

克服上述困难有两条可能的途径。第一条途径是,从自然界中存在的大量具有不同功能,特别是具有不同特异性分子识别能力的天然蛋白质中找出适当的元件。例如,同一家族的不同转录因子可响应不同的化学信号,也可识别不同的操纵子序列;催化同类化学反应的酶可能有不同的底物专一性和反应特异性,等等。另一条途径是,采用蛋白质设计和定向进化等手段,改变天然蛋白质分子的功能活性,甚至重新设计蛋白质,获得适用的元件。例如,通过诱导物结合位点或 DNA 结合位点改造,转录因子可以响应新的化学诱导信号或识别新的 DNA 结合位点;酶的底物特异性可通过蛋白质工程改变等。

上述两条途径分别对应蛋白质元件发现和元件设计改造。由于已知的天然蛋白质元件难以满足合成生物学对元件功能活性的多样性需求,蛋白质元件发现和改造是合成生物学必不可少的研究内容。目前,此方向的大多数研究还是以实验手段为主。例如,在元件发现中,通过实验筛选鉴定转录因子识别的诱导物和操纵子、酶催化的底物;在元件改造中,通过定向进化改变酶的底物特异性,甚至催化反应类型,以及通过蛋白质结构域融合引入新的调控方式等。纯粹的实验手段存在时间成本高、耗费资源多、通量有限、从无到有获得新功能极为困难等不利因素。计算和数据驱动的方法是克服这些不利因素的重要途径。随着计算生物学的发展以及生物学数据的积累,实验和计算的有机结合将会是蛋白质元件发现和改造的最有效途径。

在本文中,我们将讨论蛋白质元件发现和改造中计算的必要性,举例说明研究方法和工具,在此过程中探讨现有方法的主要困难和局限,以及可能的解决途径等。蛋白质元件发现和设计需要生物信息学、化学信息学、分子模拟等不同方面计算工具的综合应用和创新。考虑到对这些不同方面计算方法的进展综述已经比较多,且本文篇幅有限,我们将不试图综述和总结不同方法工具的进展,而仅仅以转录因子元件发现、催化元件发现和设计为例,较为概括性地展示计算方法在蛋白质元件发现和设计中可以发挥怎样的作用,并尝试前瞻性地讨论计算应聚焦的重点问题。希望通过本文的讨论,能更好地促进实验和计算的有机结合,推动合成生物学中的蛋白质元件预测和设计研究。

1 计算在蛋白质元件发现和设计中的必要性

基于基因测序数据,我们已知道了大量天然蛋白质的氨基酸序列;随着蛋白质空间结构数据的积累,对多数未知结构天然蛋白质也有可能找到其同源蛋白的空间结构。然而,我们对高度多样化的潜在天然蛋白质元件的了解大多停留于此水平。在为特定合成生物系统选择蛋白质元件时,仅仅基于蛋白质自身的序列和结构信息难以判断一种天然蛋白质是否是合适的元件。

为更具体地说明这一问题,我们以原核生物中的 tetR (四环素阻遏蛋白 )家族转录因子为例。该家族蛋白在原核生物中广泛分布,家族成员参与了抗生素耐受、生物合成代谢、应激响应等不同过程的调控。在公共蛋白质数据库中已存在超过 20 万条 tetR 家族蛋白质序列信息。理论上,大量的 tetR 家族天然蛋白均可作为合成生物学的候选蛋白质元件,从而为构建有价值的人工生物系统提供高度丰富的可能性。例如,不同的 tetR蛋白能用来感应不同的化学小分子,还可以设计相互正交的 DNA调控位点等。然而,纯粹从实验获得的,关于这些蛋白质成员的信息远不能支持这样的应用:在蛋白质水平上被初步表征过的 tetR 蛋白还不到 200 种;仅不到 100 种有其化学诱导物的信息;测定空间结构的更少。由于不知道绝大部分 tetR 家族蛋白识别或可能识别什么样的小分子诱导物,也不知道它们的 DNA 结合特异性,因此就难以在合成生物体系中使用它们。靠实验分析来补全这些信息,通量将十分有限。如果计算分析能做出有价值的预测,包括对部分家族成员蛋白做出有一定可靠性的预测,可极大有利于它们在合成生物学中的应用。

另一个例子是获得代谢通路所需的酶元件。这方面要解决的一类问题是如何从大量已知其催化的反应的天然酶中自动检索出需要的酶。在这类问题中计算无疑是重要的,但由于篇幅所限,本文的讨论不包括这方面内容。另一类问题是,当从目前已知的天然酶中还找不到催化特定目标反应的酶时,如何从反应性能未知的酶中发现有可能催化目标反应的酶。计算生物学如果能基于序列和结构等信息预测天然酶催化的反应类型和底物特异性,无论是指认性预测还是排除性预测,都可能极大降低用实验方法筛选酶元件的工作量,提高成功率。

除发现有所需功能的蛋白质元件外,蛋白质元件的改造,乃至重新设计也可以极大受益于计算。对天然蛋白质进行改造的目标包括调控稳定性、改变环境偏好性、改变相互作用特异性 (如转录因子识别新的诱导物分子或 DNA 序列、酶催化新的底物等 )等;在一些应用中,可能还必须获得自然界不存在的全新功能的蛋白质,如催化新反应类型的酶。从发展的角度看,解决后一类问题是合成生物学走出天然体系的局限,达到“超越自然”目标的重要途径。

目前,实验室定向进化仍然是蛋白质元件改造的主要手段,但其限制因素包括投入高、风险大 (成功率低 )、高度依赖于问题和研究人员的经验等。此外,从无任何初始活性的蛋白质出发经实验室定向进化获得新催化反应类型、新催化机制等尚很困难,极少数成功的例子难以推广。

计算设计在蛋白质元件改造中的价值已有很多例证。在大量研究实例中,通过计算筛选突变位点和突变范围,定向进化的成功率得到极大提高;此外,通过计算从头设计酶,也已有成功实例。尽管初始设计的酶只有最低可探测的催化活性,但它们已可以作为定向进化的出发点,最终得到催化效率达天然酶水平的人工酶。随计算方法改进,理性设计将达到更高成功率,进一步降低实验需求和相应的资源耗费,并能解决更具挑战性的元件设计问题。

2 研究方法和工具举例

2.1 研究方法的综合性

用计算方法研究蛋白质元件必然涉及生物信息学、化学信息学、计算化学、结构生物学、大数据等不同领域、不同类型计算工具的综合应用。这是由问题本身的特点所决定的:因为计算能否给出有价值的结果,取决于能否最大限度地利用基因组序列及其分类和进化等关系 (生物信息学 )、化学小分子 (化学信息学 )与蛋白质的相互作用及其与蛋白质结构和动力学关系 (计算化学、结构生物学 )、从大量序列结构和相互作用数据中总结提炼的规律 (大数据 )等。目前,绝大多数计算工具在通用性、准确性等方面还做不到面面俱到,这些工具需要和相关生物学背景知识、具体应用场景结合起来,才可能在解决特定元件发现或设计问题时最大程度发挥效用。在本节其余部分,我们将分别以对 tetR 家族蛋白 DNA 识别特异性的预测和蛋白质与小分子结合口袋的设计为例,说明综合应用不同方法的原理和可能达到的效果,并从研究方法所依据的生物学假设、不同方法在通用性和准确性之间的平衡、发展新计算方法的需求等角度,探讨计算方法研究和应用中应关注的不同方面。

2.2 预测转录因子识别的 DNA 序列

首先,我们考察一类基于基因组序列预测转录因子与 DNA 结合序列的方法。该方法基于以下现象或假设:被 tetR 家族蛋白识别的 DNA 序列具有回文特征;蛋白质识别的 DNA 序列在基因组上频繁出现在相应蛋白质基因位点附近;蛋白质 DNA 结合结构域的氨基酸序列决定识别位点半回文区的 DNA 序列。基于这些假设,可相对容易地预测一些 tetR 成员的 DNA 识别位点。我们把这个过程流程化、程序化,建立计算工具,从而能对大量 tetR 家族成员做出自动预测(龙朋朋等,待发表)。这里,简单把手工流程翻译成程序不足以实现高鲁棒性的自动计算。流程自动化过程中需要考虑的问题包括:每个转录因子基因位点附近都可以找到大量的回文序列片段,但其中绝大部分 (或全部 )都不是我们要寻找的位点;要确定真正的结合位点,必须考虑其他含同源蛋白的基因组中回文序列片段在目标区域被富集的情况,在此过程中,我们需要排除目标蛋白编码区以外基因组同源性的影响;此外,回文序列的判别会受到序列碱基组成的影响,如 G、C 含量高的片段容易被识别为回文序列,且在基因组中出现频率高,等等。综合处理好这些因素后,程序化的流程能产生可重复、可靠的结果,而无需依赖手工筛选 (手工筛选难以做到高通量预测 )。图 1显示了把这一自动化流程应用于基因组序列已知,可从公共蛋白数据库中找到的全部 tetR 家族成员后,预测结果的统计置信度 (P-value) 的分布。该图表明,对超过 50% 的蛋白质可获得 P-value < 0.05 的预测结果。对高置信度区间预测结果的少量抽样实验验证了大多数预测结果是可靠的(龙朋朋等,待发表)。

图1 基于基因组序列预测 tetR 家族成员蛋白的 DNA 识别序列得到的最大预测分数的 p-value 分布

上述基于基因组序列的方法只适用 tetR 家族成员,且各项假设都成立时才能做出有效的预测。文献报道中有一些从原理来看更通用的方法,例如基于蛋白质 -DNA 复合物的结构模型,直接从 DNA 结合结构域的氨基酸序列出发做出预测。这类方法目前的准确性怎样呢,我们考察了 footprintDB web 服务器。该服务器整合了多种根据 DNA 结合结构域的氨基酸序列预测 DNA 结合位点的模型,其中一些模型用实验测定的蛋白质 -DNA结合数据校准过。作为测试,我们从前文基于基因组序列预测可得到高置信度结果的转录因子中选择了数百个,用该服务器预测了其 DNA 结合位点。结果发现,对大部分用于查询的(约 80%)转录因子,footprintDB 给出的预测结果可能是不正确的:预测出的 DNA 序列与前述基于基因组预测的序列无相似性,与已得到实验验证的结果也不一致。这表明,现有的预测转录因子或其他蛋白质的 DNA 识别序列的通用方法,预测效果并不理想。通用性和准确性都较好的计算方法还有待发展。

尽管基于基因组序列的预测方法通用性有限,但它们能对数以千计的天然转录因子给出较为可靠的结果 (图 1)。今后,这些基于数据的结果也有可能用来改善通用的、基于蛋白质序列的预测方法。图 2展示了 tetR 家族 6 个不同成员与 DNA 复合物的晶体结构。尽管这些蛋白质的 DNA结合结构域序列差别大,识别的 DNA 序列多样,但复合物中蛋白质 -DNA 相互作用部分结构是高度保守的。这样,从原理来说, DNA 序列应该由这些结构高度保守的 DNA 结合结构域的氨基酸序列决定。然而,如果用现有的分子力场等关于分子间相互作用的物理模型来进行预测,这类模型还难以准确辨别序列变化引起的亲和力变化;如果要使用机器学习等数据驱动的方法,仅仅依靠少数已知的复合结构和少量与序列变化相关的实验结果也难以构建可靠的定量模型。在今后研究中,如能整合基于基因组序列的预测数据和如图 2 所示的结构数据,采用机器学习等人工智能方法,有可能建立比基于基因组序列的方法更加通用,同时比现有基于蛋白质序列和结构的方法更准确的计算工具。

红色和紫色显示结构高度保守的 DNA 识别 motif
图2 六个 tetR 家族成员蛋白与 DNA 复合物的结构叠合图

2.3 预测小分子结合能力

在接下来的例子中,我们考察预测转录因子、酶等蛋白质元件对特定小分子的结合能力。目标小分子化合物是给定的,我们要从一系列天然蛋白质元件中预测哪些蛋白质有能够识别该小分子的口袋,这被称为反向对接 (inverse docking)问题。

基于现有计算工具,有两条可能技术路线实现反向对接。第一条路线以受体蛋白的结构为中心,将基于结构的分子对接 (molecular docking)算法逐个应用于候选蛋白质元件,预测和评估它与小分子的结合。采用这一路线需要知道每个候选蛋白质元件的空间结构。如果没有实验数据,则需要先使用比较建模等结构预测工具预测其空间结构。多种因素可能影响最终预测结果的准确性,包括:比较建模预测的受体结构是否准确;受体在结合小分子后是否可能发生大的构象变化;分子对接是否能找到最优结合模式;用于评估亲和力的评分函数是否足够准确,等等。第二条技术路线是以小分子为中心。我们可以用化学信息学工具比较目标小分子和其他已知的,能够与不同已知序列或结构的蛋白质相互作用的小分子。这种比较既可以基于小分子间的整体相似性,也可以基于它们的化学子结构的相似性。根据与相同或相似的小分子相互作用的蛋白质 (模板蛋白)与候选蛋白质元件在某些方面的相似或差异性,我们可预测后者识别目标小分子的可能性。如果已知数据足够充分,我们可比较模板蛋白质和候选蛋白质元件在结合口袋周围的空间结构细节,据此做出的预测有可能达到较高的准确性。即使是其他情形,预测结果对后续实验设计 (如优先考虑哪些候选元件进行实验筛选)也可具有指导意义。

在候选蛋白质元件数量不是特别多 (如用其他计算工具筛选过后)的情况下,可以使用分子模拟技术进行更细致的计算筛选。对小分子与每一种候选蛋白质可能形成的复合物,我们构建初始空间结构模型 (用比较建模、分子对接等工具完成)。按分子模拟要求,先对体系进行初始优化、平衡,再通过求解牛顿运动方程,得到体系结构 (原子空间坐标)随时间演化的轨迹。通过对结构和相互作用等特性的时间轨迹进行分析,可判断蛋白质 -小分子复合物的合理性。分析中可考虑的一些主要特征包括:小分子是否稳定结合于预期结合位点;是否有足够的特异性相互作用 (氢键、盐键、疏水相互作用等)维系结合;这些相互作用在模拟过程中是否稳定,等等。分子模拟的计算代价相对较大,在现有的大多数多核计算服务器上,对每个候选蛋白的模拟分析可能花费若干小时或更长的计算时间。随着计算机硬件速度和并行规模的快速提升,这一工具的应用会越来越广泛。

2.4 结合和催化口袋的理性设计

除预测和筛选蛋白质元件外,计算方法也可以用于设计和改造蛋白质元件的小分子结合位点,或酶的活性中心。目前,最广为人知,并且已有一些成功例子的理性设计方法是 RosettaDesign。近期国际上两项研究把设计和实验结合,分别成功改变了两种转录因子的诱导物特异性。前面提到的通过从头设计获得有能被观察到的催化活性的酶的例子也使用了同类方法。这些例子包括分别催化 Kemp 消除反应、逆向醛缩反应和双分子 Diels-Alder 反应的人工酶。这类设计的主要步骤可概括为:确定结合口袋的关键残基 (直接参与催化、与小分子配体发生特异性相互作用等的残基)的构型,得到理论口袋或理论酶;通过几何匹配确定理论口袋中关键残基在蛋白质主链骨架上可能的位置;设计口袋周围其他位置的氨基酸残基。对于酶设计,理论酶的构型可能需要采用量子化学计算来确定。在设计完成后,可以用分子模拟进一步验证结果。近期,基于分子模拟的酶设计工作表明,模拟过程中活性中心氢键网络的完整性和稳定性可作为重要评价指标。

目前,对小分子结合口袋和酶活性中心计算设计的成功率还不高,这与算法中采用的一些假设和近似有关。其一是使用量子化学计算得到的理论口袋 /理论酶不一定对应于复杂蛋白环境中最有利的相互作用构型。例如,通过水分子介导的相互作用难以被处理。在这一点上,用结构生物信息学、化学信息学工具进行数据驱动的设计可以很好地补充计算化学方法。随着蛋白质 -小分子复合物高分辨结构数据越来越多,数据驱动方法也应能更有效地从数据中提取蛋白质 -小分子的相互作用特征,并据此设计更合理的结合口袋。此外,现有算法的一个主要缺陷是使用几何算法把理论获得的活性中心匹配到结构固定的主链骨架上。由于缺乏对主链骨架空间构象变化的描述,该算法只能勉强找到近似的匹配,后续设计的结合口袋或活性中心很难以较理想的方式与配体相互作用。这一点在对设计结果的实验解析结构中往往很明显:预期的氢键等特异性相互作用并未呈现或不处于有利构型。克服这一困难需要考虑完全柔性的主链骨架。

在常规的分子模拟中,蛋白质构象是完全柔性的,但所使用的基于物理模型的分子力场能量函数依赖于侧链原子、溶剂分子等,不适用于侧链处于待定状态的蛋白质设计问题。在结构建模中使用的另一类能量模型是统计能量模型,它来源于对数据库的统计分析。在近期研究中,我们发现在恰当的统计能量模型下,只考虑主链也能建立逼真的蛋白质主链结构。该已发表的模型还只考虑了刚性二级结构片段之间的堆叠,没有考虑构象柔性。更进一步,我们建立了一种能考虑全部构象柔性的新型统计能量模型 (黄斌等,待发表 )。用随机动力学模拟等分子模拟技术可以在该能量函数下对主链骨架进行连续采样。与此同时,我们还发展了一种动态组装方法,可以在对主链骨架构象采样的同时,把理论设计的活性中心所包含的各种氨基酸残基定位到合适的位点上,保持它们与配体之间的相对构型和重要相互作用。图 3 示例了用此方法把丝氨酸水解酶活性中心定位到一个完全柔性的蛋白质骨架上的初步设计结果。理论上,对催化重要的特异性相互作用在设计得到的构型下都被保留了,而主链结构的合理性是由统计能量模型来保证的。需指出的是,图 3 还只是一个示例,在方法和结果的多个方面都尚待优化,其目的是为了说明考虑骨架柔性的活性中心设计可能达到的效果。

下图中灰色为起始主链结构,红色为活性中心定位后的主链结构。虚线示意催化三联体之间的氢键以及主链 NH 参与形成的氧负离子洞氢键。
图3 在柔性主链构象采样过程中把丝氨酸水解酶活性中心(上)定位到蛋白质骨架上(下)

3 展望

在蛋白质元件预测和设计中,计算已经展示了其通过整合利用多源、大量数据信息,提供预测结果指导筛选恰当的实验对象以及提供设计结果提高实验效率和成功率等重大作用。尽管如此,目前无论是计算方法的发展还是计算的应用都还远不充分。在建立通用性高的预测方法和提高理性设计的成功率等方面,现有的计算工具还存在一些困难。但是,这些困难正在逐步得到克服,这正是计算的潜力所在。克服这些困难的途径包括:已有的计算工具以更恰当的方式得到应用,例如分子模拟应用于蛋白质设计中;结合更大量、更高质量的数据和恰当的机器学习、统计学习等推动数据驱动方法的发展;数据驱动方法与计算化学方法,如量子化学、分子模拟等的结合,等等。随着更多的研究人员重视和投身于此领域的研究,计算机硬件性能持续提升,越来越多对合成生物学有意义的天然蛋白质元件性质将得到准确的预测;借助合理设计的元件,一些仅用天然元件无法实现的合成生物系统将得以实现。

自噬与骨质疏松

山东体育学院研究生教育学院 郭健民 周林 章岚

随着人口的老龄化,骨质疏松已成为亟待解决的全球公共健康问题,其主要特征是骨量减少、骨微结构损伤,导致骨强度降低和脆性增加,使骨折发生风险升高。骨量和骨微结构的保持依赖于成骨细胞和破骨细胞功能的动态平衡。人体内的激素、生长因子以及生物活性物质都参与维持骨微环境的平衡。此外,遗传、营养、机械应力、神经调节、自噬、氧化应激等因素也被作为影响骨微环境稳态的研究热点。而自噬作为细胞适应应激环境的主要调节方式,在骨代谢中发挥重要的调控作用。在基础条件下,自噬是细胞存活的重要机制,但当自噬不足时,受损的蛋白质和细胞器会在细胞内累积,加速细胞凋亡的发生;相反,如果自噬被过度激活,细胞器和蛋白质的降解超过一定限度时,同样会诱发细胞凋亡。研究证实,自噬与骨质疏松等骨代谢疾病的发病机制存在一定的关联。

1 自噬的过程

自噬是高度保守的细胞分解代谢和能量产生的过程,可在溶酶体中批量降解、回收细胞内的细胞器、蛋白质和致病性微生物。根据细胞的功能和细胞质运输的形式可将自噬分为 3 类:大自噬、小自噬和分子伴侣自噬。通常所说的自噬是指大自噬,即由内质网来源的膜包绕待降解物形成自噬体,然后与溶酶体融合并降解其内容物。本文主要综述大自噬与骨质疏松发生发展进程相关的研究。

自噬的起始步骤是自噬小泡的形成,其受到自噬相关基因 (autophagy-related gene, ATG)家族蛋白的调控,迄今为止已有超过 30 种 ATGs 被发现。自噬小泡的形成通过隔离膜的出现而启动,隔离膜可能来源于内质网、线粒体、高尔基复合体和质膜等细胞器。在这个阶段,III级 PI3K/Vps34 (vacuolar protein sorting 34)复合体被激活,进而与 Beclin-1、 Atg14、Vps15 形成多蛋白复合体,促进吞噬泡的形成和 ATG 蛋白的募集。随后,隔离膜拉长变成球形,并不断扩大形成一个密封的双层膜结构,这个过程受两个保守的共轭系统调控。其中一个是由 Atg12 和 Atg5 缀合组成,这一过程与 Atg7 和 Atg10 协作相关联。另一个是在 Atg4、Atg7 和 Atg3 帮助下, PE (phosphatidyle-thanolamine)和 Atg8/LC3 (microtubule associated protein 1A/1B light chain 3)缀合。LC3-II是预测自噬体形成的可靠蛋白质标记物,其合成过程中主要包含 3 种重要形式:未加工形式 (pro-LC3)、蛋白质水解加工形式 (LC3-I)和 PE-共轭形式 (LC3-II)。随后,溶酶体和自噬体外膜融合形成自噬溶酶体,隔离的材料和内部的自噬体膜被分解并降解。

自噬是调节细胞和生物组分的合成、降解、再循环所必需的,如氨基酸的回收再利用和受损细胞器的移除。适宜的自噬水平对于保护细胞器和蛋白质的完整性起决定性作用;相反,不受限制的自噬可能会诱导细胞的程序性死亡,因为高水平的自噬会导致细胞质蛋白和细胞器的过度降解,使细胞功能受到严重影响。

2 骨质疏松的诱发

骨骼的动态平衡由成骨细胞、破骨细胞、骨髓间充质干细胞 (bone marrow mesenchymal stem cells, BMSCs)等细胞共同维持,骨代谢平衡的失调会引起骨质疏松、骨关节炎等疾病。雌激素缺乏、长期使用糖皮质激素、缺乏机械刺激、氧化应激等因素均会诱发骨质疏松。骨细胞表面有很多性激素受体,雌激素可促进成骨分化,抑制骨吸收,但在老年女性人群中由于雌激素水平的下降,骨转换速率增加,骨吸收增加,从而造成骨量和骨密度的下降。长时间接触糖皮质激素,会使成骨细胞生成减少,诱导成骨细胞和骨细胞凋亡,延长破骨细胞的寿命,使骨量减少和骨强度降低,最终诱发骨质疏松。氧化应激是指组织或细胞内由于活性氧 (reactive oxygen species, ROS)的过量生产或清除障碍,导致活性氧 ROS 的水平增加,其与衰老、癌症和糖尿病密切相关。氧化应激会引起细胞的一系列变化,如激活凋亡信号通路、导致细胞功能障碍等,并以此参与绝经后骨质疏松、糖皮质激素诱导的骨质疏松和老年性骨质疏松等不同类型骨质疏松的病理过程。机械应力刺激可促进 BMSCs 向成骨分化,而长时间的卧床、悬吊等导致机械刺激减少,骨生成下降,最终导致骨质疏松症发生。在各种因素诱发骨质疏松的过程中,自噬对骨细胞的功能代谢会产生一定的调控作用,这为临床骨质疏松的治疗提供了潜在的靶点。

3 自噬与骨细胞

3.1 自噬和破骨细胞

破骨细胞的主要功能是骨吸收,它起源于造血干细胞并受 RANKL (receptor activator for nuclear factor-κB ligand)和 M-CSF (macrophage colony-stimulating factor)的调控,破骨细胞中的降解酶和质子被转运到褶皱处的基底外侧膜,进而溶解矿物质并使骨基质脱钙。自噬对于保持破骨细胞正常生理功能以及促进破骨前体细胞向破骨细胞分化具有重要意义,自噬抑制会使破骨前体细胞向破骨细胞分化减少,同时,也会造成破骨细胞功能障碍。Chung 等研究发现, Beclin-1 是骨髓巨噬细胞向破骨细胞分化必不可少的,在骨髓巨噬细胞中敲低 Beclin-1 后, NATc1 (nuclear factor of activated T cells 1)的表达和破骨细胞的生成都显著减少,其可能机制是抑制了 JNK 和 p38 的活化。 P62 在自噬过程中被整合到自噬体中而被降解,是常用的自噬通量标记物。在破骨细胞中,使用 siRNA 抑制 P62 的表达后,TRAP (tartrate-resist-ant acid phosphatase)阳性多核细胞的数量显著减少,同时,与破骨细胞生成相关的基因 TRAP、NFATc1、CatK (cathepsin K)、Fra-2 等的表达均显著下降。在破骨细胞发挥功能的过程中,褶皱边界的形成需要突触结合蛋白 VII 和 Rab7。 Deselm 等研究发现,在小鼠单核细胞中敲除 ATG5 可以使小鼠的骨量显著增加,破骨细胞的数量显著减少,且 ATG 介导了 Rab7 的募集。综合上述研究发现,Beclin-1、P62、ATG5、LC3 等自噬相关基因都是维持破骨细胞分化和正常生理功能必不可少的。

除了维持破骨细胞的生理功能外,自噬在氧化应激、接触糖皮质激素和微重力等条件下,可促进破骨细胞的形成 (图 1)。Shi 等研究发现,地塞米松暴露可以使小鼠的骨量减少,使用 1 μmol/L 的地塞米松干预破骨细胞后,可显著增加破骨细胞中 RANK (receptor activator for nuclear factor κB)、TRAP、 CTSK 的表达,并诱导破骨细胞自噬和氧化应激;而使用 3-MA (3-methyladenine)抑制破骨细胞自噬后,破骨细胞形成和功能均受到抑制,这表明在地塞米松干预下自噬可促进破骨细胞的形成。在小鼠单核细胞中敲除 ATG7 或使用 CQ (chloroquine)抑制自噬,可以有效地抑制地塞米松或卵巢去除诱导的小鼠骨量丢失;体外细胞实验也发现,使用 CQ 抑制成骨细胞自噬后, RANKL 的分泌显著减少,而破骨细胞自噬被抑制后,NFATc1、OSCAR、 TRAP、CatK 等的表达也显著降低,表明在骨质疏松中,自噬可能会诱导破骨细胞的分化和形成。另一项研究也发现,在巨噬细胞 RAW264.7 中, DOT1L (disruptor of telomeric silencing 1-like)抑制剂会显著增加破骨细胞的自噬水平,而抑制 DOT1L 在去卵巢小鼠中的表达后,会促进破骨细胞的融合,加剧骨量的丢失,这也说明在骨质疏松中高水平的自噬与骨丢失密切相关。

图1 在糖皮质激素、微重力和DOT1L抑制剂等情况下,自噬对破骨细胞的调控

微重力环境下,骨受到的机械刺激减少,骨吸收大大增加。Sambandama等的研究发现,在微重力环境下自噬介导了破骨细胞的形成。他们发现,在微重力环境下,小鼠破骨前体细胞的自噬水平显著增高,其中 ATG5 和 LC3 mRNA 的表达分别增加了 20 倍和 35 倍,同时 ATG5 和 LC3-II 蛋白的表达水平也分别提高了 8 倍和 7 倍,破骨分化相关的基因 TRAP、CatK 的表达也都显著增加,而使用 3-MA 抑制自噬后,有效地逆转了微重力对破骨细胞分化的影响。此外,在破骨细胞中敲除 ATG5 会导致小鼠骨量增加,并减少了卵巢去除诱导的骨丢失。这表明自噬与机械刺激减少、雌激素缺乏导致的骨流失存在关联。

目前关于自噬调控破骨细胞形成和分化机制的研究还较少,除了上述文献中报道的自噬可调控 NFATc1、OSCAR、TRAP、CatK 等破骨分化相关基因外,有研究发现,自噬可通过调控 TRAF3 (TNF receptor-associated receptor 3)来影响破骨细胞分化。 TRAF3 可抑制破骨细胞的分化,抑制去卵巢小鼠中自噬可以增加 TRAF3 的表达,进而抑制破骨细胞的成熟,这表明在骨质疏松中自噬诱导 TRAF3 的降解对于破骨细胞的成熟很重要。Cdc42 可以调控骨髓巨噬细胞的增殖和破骨细胞的生存、分化、极化。Chung 等研究发现, LC3 缺失没有影响 TRAP 阳性多核细胞的形成,但抑制了 CTSK 的释放和破骨细胞的活性,其可能的机制是 LC3 影响了 Cdc42 的活性。

3.2 自噬和成骨细胞

自噬对于维持成骨细胞的正常生理功能至关重要。ATG5 作为自噬和凋亡的开关,在自噬的发生发展中起着重要的调节作用。在自噬空泡形成的早期阶段,由 ATG12-ATG5-ATG16 组成的复合物与自噬空泡的外膜相结合,促进自噬泡的膨胀和 LC3 向自噬空泡的移动。Weng 等研究发现,在成骨细胞中抑制 ATG5 的表达后,成骨细胞的增殖和分化均受到抑制,而过表达 ATG5 并不对成骨细胞的增殖和分化产生显著影响,但可以抑制氧化应激诱导的细胞凋亡。此外,在小鼠成骨细胞中敲除 ATG7 会使其骨自噬水平下降,同时引起内质网应激,使小鼠成骨分化标志物 ALP (alkaline phosphatase)、 Runx2 (runt-related transcription factor 2)等的表达减少,成骨细胞的生成和骨基质的矿化减少,细胞凋亡增加,这表明自噬对于维持成骨细胞正常的功能、活性是不可或缺的。

自噬介导成骨前体细胞向成骨细胞分化的过程,已有研究表明自噬参与保持 BMSCs 的干细胞性状,并可通过 AMPK/Akt/mTOR 信号通路调节 BMSCs 向成骨细胞分化。抑制自噬会造成 ROS 累积和 DNA 损伤,而在 MSC 中 ROS 诱导的自噬可通过激活 JNK 抵抗细胞凋亡。因此,自噬可通过预防 ROS 诱导的细胞凋亡,延长 MSC 的存活。Qi 等研究发现,使用 siRNA 抑制小鼠 BMSCs 中 ATG5/Beclin-1 的表达后,细胞自噬水平显著降低,同时,细胞钙化结节的数量显著减少,而脂滴形成增加,这表明自噬参与 BMSCs 的分化过程。此外,该研究还发现在去卵巢小鼠 BMSCs 和骨髓中自噬水平均显著下降,用雷帕霉素干预去卵巢小鼠一个月后,小鼠的骨量和骨密度均显著增加;体外实验发现,使用雷帕霉素激活去卵巢小鼠 BMSCs 自噬后,其成骨分化标志物 Runx2 和 ALP 的表达显著增加,这表明自噬可能通过上调相关基因的表达,参与调控 BMSCs 向成骨细胞分化的过程。

在后肢悬吊引起的废用性骨质疏松小鼠模型中,使用 3 mg/kg/d 的雷帕霉素干预 4 周后发现,小鼠的自噬被显著激活,并且其骨量、骨小梁数量、骨小梁厚度均显著增加,而其骨小梁分离度显著降低,同时,小鼠成骨细胞中成骨分化因子 Runx2 的表达增加,这表明在骨质疏松中自噬可通过促进成骨细胞分化使骨生成增加。在泼尼松龙诱导的大鼠骨质疏松模型中,大鼠的骨量、骨密度和自噬水平均显著下降,同时,骨细胞中成骨分化标志物 Runx2、RANKL 和 BMP2 的表达也都显著减少,使用 β-蜕皮甾酮进行干预后,骨质疏松大鼠骨的自噬水平升高,同时,逆转了泼尼松龙诱导的骨量减少,这表明糖皮质激素可能通过下调自噬抑制成骨分化,并使骨量减少。有研究发现,在正常情况下激活或抑制自噬对成骨细胞的活性没有显著影响,但在低剂量的地塞米松干预下,成骨细胞自噬水平和细胞活性显著升高,此时使用 3-MA 抑制自噬后,细胞活性和成骨分化标志物 Runx2 和 OCN 等的表达均显著降低。在较高剂量的地塞米松干预下,成骨细胞自噬水平升高,细胞活性和分化均受到抑制,细胞凋亡增加,抑制自噬后,则有效逆转了高剂量的地塞米松对成骨的损害作用。长时间使用糖皮质激素可诱发骨质疏松,其主要原因可能是糖皮质激素使成骨细胞的自噬过度激活,导致成骨细胞活性下降、凋亡增加、功能受损。

自噬是一把双刃剑,在不同的生理或病理情况下其发挥的功能各不相同。正常的生理情况下,自噬对于保持成骨细胞的生理功能是必不可少的,但在糖皮质激素暴露、缺少机械刺激的情况下,自噬被抑制或过度激活,此时自噬对成骨细胞的功能、活性产生不利影响,从而加剧了骨质疏松发生的可能。

3.3 自噬与骨细胞

骨细胞通过分泌 PGE2 (prostaglandin E2)、IGF1 (insulin-like growth factor 1)、SOST (sclerostin)、DKK1 (dickkopf-related protein 1)等来调控成骨细胞,也可通过分泌 OPG (osteoprotegerin)、TGF-β(transforming growth factor-beta)、RANKL 来调控破骨细胞。抑制骨细胞自噬后, LC3、Beclin-1 的表达减少,同时, SQSTM1/p62 的表达和细胞凋亡增加,这表明抑制骨细胞自噬可能会导致老年化相关的骨质疏松。也有研究发现,在雌性小鼠骨细胞中敲除 ATG7 后,小鼠的骨量下降。在去卵巢大鼠模型中,ROS 可以刺激骨细胞自噬,而衰老相关的骨量丢失会导致自噬水平的下降,进而引起氧化应激。这表明衰老导致的骨丢失伴随着 ROS 的增加,但其作用机制尚不明确。

Xia 等的研究发现,使用 10⁶ mol/L 的地塞米松干预成骨细胞 24 h 后,其自噬标志物 LC3 的表达显著增加。抑制自噬和使用糖皮激素都会使骨细胞的数量显著减少,但抑制自噬对骨细胞的作用大于糖皮质激素使用。糖皮质激素的剂量对骨细胞的命运有决定性作用,低剂量会导致骨细胞自噬,高剂量则会引起细胞凋亡。在小鼠骨细胞中敲除 ATG7 会使骨生成下降,而同时施加糖皮质激素干预,并不会加剧骨量的丢失。这表明糖皮质激素对骨细胞的影响可能通过自噬来实现,因此,可通过调节自噬抑制糖皮质激素诱导的骨细胞凋亡。

4 运动防治骨质疏松作用机制研究的新靶点

骨质疏松的常规药物治疗存在一定毒副作用,且加重了家庭和社会医疗系统的经济负担,而运动作为一种简便易行、经济有效的疗法,其在防治骨质疏松的中作用已得到广泛的证实。目前,关于运动防治骨质疏松的机制研究主要从机械应力、激素、细胞因子、骨代谢信号通路以及非编码 RNA 等方面进行。最新研究发现,自噬可能也介导了运动防治骨质疏松的过程。 2018年,Zhou 等研究发现,流体剪切力可显著增加骨细胞的自噬,而使用 3-MA 抑制其自噬水平后,细胞的死亡率大大增加。此外, Inaba 等的研究也发现,循环机械应力刺激可激活骨细胞自噬,同时增加抗凋亡基因的表达,并有效减少细胞的死亡。骨细胞是机械刺激的主要传感器,而在老化的骨细胞中,自噬水平的减少往往伴随着细胞死亡的增加,这表明在老年人群中可通过给于机械刺激,增加骨细胞的自噬水平,从而使其死亡率减少。关于自噬是否介导运动对 BMSCs、成骨细胞和破骨细胞的影响,尚未见有相关的报道,这将是运动防治骨质疏松作用机制研究的新热点。笔者认为适宜的机械刺激可适度激活骨微环境中各种细胞的自噬,使其向有利于骨形成的方向发展,而过度的刺激有可能会从过度激活和抑制自噬两方面影响骨细胞的活性和功能。

5 小结

在雌激素缺乏、机械刺激减少、长期接触糖皮质激素、氧化应激等因素诱发骨质疏松的过程中,自噬水平产生变化,进而对成骨细胞、破骨细胞、 BMSCs、骨细胞功能活性产生影响,并以此参与骨质疏松的发展进程。未来,自噬有可能成为改善骨质疏松的潜在靶点,但在一系列的细胞微环境中,对不同自噬阶段的精确调控仍需要更多的研究,以将其应用于临床。同时,为了找到多样化的、创新性的治疗方法,对于骨质疏松的发病机制的研究也需要广大学者共同努力。此外,运动作为一种防治骨质疏松经济有效的方法,其对骨细胞自噬水平的影响以及自噬是否介导运动防治骨质疏松的作用及其相关机制都需要不断探索。

三维基因组测序技术发展

内蒙古大学生命科学学院

杨琬婷

北京大学生命科学学院

杨磊 王世强

1 三维基因组

1965 年,Flemming  在细胞分裂之前观察到了染色体的形成。如 20 世纪初 Boveri-Sutton 遗传染色体理论所阐明的那样,染色体在有丝分裂和减数分裂过程中的行为证明了它们在遗传信息携带方面有着重要的作用。多年来,生物学家专注于研究染色体的结构、动力学和行为,希望发现基因表达、转录调控机制的全过程,除了主要基因序列以外,目前已经致力于研究基因组的特征。科学家们已经采用生物化学分析和计算工具来绘制转录活性、转录因子结合位点和对组蛋白的化学修饰以及 DNA本身的位点,最终发现数以万计的转录单位和数百万潜在的人类基因组顺式调控元件 。

然而,转录调控过程不单单是在一维线性核苷酸链上就能进行的。在体内,组蛋白包裹着核苷酸链,组成染色体,形成高度致密的结构。转录调控取决于调控元件之间的物理相互作用,以增强子和启动子为例,在许多基因座位上发现了调节增强子 -启动子环 。在线性意义上它们通常不相邻,但在转录调控中的作用却有非线性相互作用,从两个角度可以阐明这个现象。首先,增强子可以指导线性距离较远的靶基因的表达  ;其次,受增强子影响最大的基因往往并不是线性距离最接近的基因 。随着研究的深入,越来越多的证据表明,这种表面上的“长程”调控是可能的。转录时,尽管 DNA双链中会插入很长的核苷酸序列,增强子也与其靶基因的启动子在物理上接近 。这种物理上的接近,使得增强子与启动子上结合的蛋白质复合物相互作用,从而影响靶基因的转录。

对三维基因组的研究,可以不仅仅局限于功能元件的单一线性作用,而是提高对其在染色质物理结构上相互作用的认识,为了更好地了解染色体相互作用技术,研究者们对许多研究技术进行了革新。

2 三维基因组研究技术

三维基因组研究的初期是建立在显微镜研究上的,如 FISH 和一些其他显微镜方法,这些方法能够进行基因定位的单细胞分析 。然而,在基因组和细胞群体规模上,它们的通量和分辨率有限,因此可能无法高效且清晰地发现核组织的一般原则或个别基因的特征。染色质构象捕获技术在一定程度上打开了染色体相互作用的大门,该技术最初设计用于测量两个基因组座位在三维 (3D) 核空间内相互作用的频率。随着科学的进步和技术的革新,这种方法已经从定性和定量两方面发展,并从检测两个特定基因座的配对相互作用到全基因组染色质相互作用组,再结合对表观遗传染色质背景的分析,揭示了通用基因组折叠原理。

2.1 染色质构象捕获技术及其衍生技术

2002 年,Dekker 等开创性地发展了染色质构象捕获技术(chromatin conformation capture technology, 3C) 以分析染色质的物理特性,应用于研究酵母染色体的折叠。至此,三维基因组的研究进入到了一个新的研究水平,由于需要更高的分辨率与通量,染色质构象捕获技术 (3C) 不断发展,从“一对一” (3C) 衍生为“一对多”(4C) 、“多对多”(5C) ,再到全基因组 (Hi-C 、Micro-C)、靶向区域分析 (ChIA-PET 、Capture-C 、Capture Hi-C ) 等等,这些方法有很大的潜力,也有一定的局限性。

2.1.1 染色质构象捕获技术(chromatin conformation capture technology, 3C)

3C 及 3C 衍生技术的第一步是建立 DNA 的3D 结构的表达模板。完整的细胞核被分离出来后,常常使用固定剂甲醛固定,使 DNA 与蛋白质以及蛋白质与蛋白质之间交联。接下来,用识别 6 个碱基对(bp) 的限制性内切酶,如 HindIII、BglII、SacI、BamHI 或 EcoRI,或识别 4 个碱基对的限制性内切酶,如 AciI 或 DpnII 消化。随后,交联的 DNA 片段的黏性末端在稀释的条件下被重新连接 ( 在交联的片段之间 ),在空间中共定位,线性距离较远的DNA 片段可以以这种方式彼此连接,由此创建模板,其实质可被看作是 3D 核结构的一维 (1D) 投射。最后,确定不同位点已经交联的相对频率,通过对全基因组相互作用频率的分析,获得关于一般核结构的信息以及染色体的物理性质和构象。

其中,在重新连接时,根据实验目的不同,可使用半定量  或定量 PCR 扩增有相互作用的片段,将引物设计在所有可能的限制性片段的末端附近,通过比较不同引物组合的扩增效率,建立连接频率矩阵,来充当成对相互作用频率的标志。

2.1.2 环状染色质构象捕获技术(circular chromatin conformation capture technology, 4C)

4C 最初将 3C 技术与微阵列相结合,分析选定基因组位点与阵列上所有基因组片段的接触 ,该技术可在全基因组范围搜索与核空间中给定基因座接触的 DNA 基因座,其中,活动和非活动基因参与许多远程染色体内相互作用,也可以形成染色体间接触。在 4C 技术中,3C 分析如常进行,但 PCR步骤省略,用第二种限制酶切割并重新环化,然后,通过反向PCR 特异性扩增与该染色体位点接触的所有序列。最后,通过微阵列分析或下一代测序(next generation sequencing, NGS) 方法分析。

2.1.3 染色质构象捕获碳拷贝技术(chromatin conforma- tion capture carbon copy technology, 5C)

在染色体构象捕获碳拷贝 (5C) 中,允许同时测定多个序列之间的相互作用 ,通过常规 3C 产生3C 文库,使用高度多重连接介导的扩增(LMA) ,在多重 PCR 反应中退火并连接 5C 寡核苷酸而转化为 5C 文库。这些连接点的读数可以在微阵列上进行,也可以通过高通量测序进行。5C 已被用于研究 β- 球蛋白基因座  和 α- 球蛋白基因座的染色质构象等。

总得来说,3C 方法本质上依赖于定量测定而非定性测定,其创新之处在于首次提出了这种“邻近连接”思路想法。但是,如果距离超过几千个碱基位点时,特异性连接产物变得非常罕见,无法通过 3C PCR 进行准确定量。4C 是评估个体基因组位点 DNA 接触特征的方法,显示了活性和非活性染色质之间的分离,但仅限于描述与同一条染色体上其他地方 ( 顺式 ) 或其他染色体 ( 反式 ) 的较大区域的长距离接触,相距 50 kb 以上的基因间和基因与功能元件间的相互作用尚不容易被发现。而 5C技术相对于 4C 技术而言,可在有其他接触的情况下,研究特定位点之间的 DNA 接触,该技术广泛适用于大规模基因组元件顺式和反式互作网络的研究以及高阶染色体结构的研究,它不仅可以识别特定位点之间的相互作用,还可以建立整个基因组区域的接触频率矩阵。

2.2 高通量染色质构象捕获技术(high-throughput chromatin conformation capture, Hi-C)

2.2.1 Hi-C

Hi-C 是 3C 的一个高通量版本,用于检测所有基因组位点之间的所有相互作用 ,从而呈现全基因组接触图。在 Hi-C 中,创建 3C 模板的步骤稍作调整。在连接之前,限制性末端用生物素标记的核苷酸填充。在末端连接之后,将 DNA 纯化并剪切,并用亲和素富集被标记的连接接头 ( 双端 ) 进一步分析。最后,可得到整个基因组的片段之间的成对相互作用频率矩阵,其分辨率取决于限制性位点密度和测序深度。

Hi-C 没有特异性,更加细节、罕见的现象常常只能在详细的接触图中找到,这些接触图需要对 Hi-C 文库进行非常深入的测序。除此之外,如果仅集中于特定的基因组位点、特定的基因座,甚至特定类别的序列 ( 如基因启动子、增强子、边界等 ),绝大多数 Hi-C 读数是多余的,因此,Hi-C 文库的测序变得过于昂贵。虽然 Hi-C 能够检测全基因组范围内的长程相互作用,但其有效分辨率 ( 取决于限制性片段和实验灵敏度 ) 阻止了特定相互作用的发现。

2.2.2 原位Hi-C

最初,原位 Hi-C  将 Hi-C 方案与核连接分析  相结合,DNA 使用限制酶消化,在填充 5′-突出端的同时掺入生物素化的核苷酸,定量连接平末端片段,剪切 DNA, 用 Streptavidin Beads 捕获生物素化的连接接头,并用配对末端测序分析得到片段。与 Hi-C 相比,原位连接降低了稀释溶液中随机连接引起的假接触的频率 ;其次,所需时间更短 ;第三,它被识别 4 个碱基对的酶切割,实现更高分辨率和更有效的染色质 DNA 切割。

2.2.3 HiChIP

HiChIP 是一种以蛋白质为中心的染色质构象分析方法,它利用了原位 Hi-C 和转座酶介导的珠子库构建原理。在 HiChIP 中,染色质裂解前,先在细胞核原位建立了长程的 DNA 接触,最大限度地减少可能的假阳性相互作用 ,并大大提高DNA 接触捕获效率。然后,进行 ChIP 来直接捕获与蛋白质相关的长程相互作用。配对末端测序后,可分析鉴定出基因组中两个相距较远的片段是否具有相互作用。

2.2.4 BL-Hi-C (Bridge Linker-Hi-C)

BL-Hi-C 是一种功能强大且广泛适用于分析3D 染色质相互作用的方法。近端染色质和结合因子原位交联,使用限制酶 HaeIII ( 识别“GGCC”的 4 碱基切割酶 ) 消化,HaeIII 比以前使用的其他酶离靶向活性区域更近,配合两步连接、测序等,可以完成不依赖抗体或探针等为前提的富集。BL- Hi-C 切割时使用的 HaeIII 富含 CG 碱基,识别序列长度为 4 bp,可以消化较短的限制性片段,增加特异性蛋白质复合物结合的片段的重新连接概率。因此,BL-Hi-C 高效且具有极高的灵敏度,可用于鉴定涉及调节事件的相对动态的染色质结构。此外,改用 20-bp 生物素标记的接头代替之前使用的生物素 -14-dCTP,可将成本降低到原来的三分之一。

2.2.5 OCEAN-C (open chromatin enrichment and network Hi-C)

OCEAN-C 不依赖抗体和探针,通过整合 FAIRE-seq 和 Hi-C 技术,OCEAN-C 可检测活性顺式调节元件富集的开放染色质的相互作用,用于绘制全局开放染色质相互作用。在添加生物素化的残基和 Hi-C 超声处理之后,苯酚 – 氯仿提取去除核小体的染色质 ( 开放染色质 ),从而特异性富集携带生物素信息的 DNA 片段,然后进行文库构建和高通量测序。

OCEAN-C 是研究开放染色质相互作用及其与基因调控关系的新工具。在 3 种 B 细胞相关细胞系(U266、RPMI8226 和 GM12878) 中使用 OCEAN-C技术,发现 3 种细胞中均有近 1 万个开放染色质相互作用中心 (HOCI),且这些 HOCI 也与超级增强子 (super-enhancer)、H3K4me3 区域有重合,可作为连接点,形成全基因组相互作用的网络。

2.2.6 DLO Hi-C

上述这些 Hi-C 衍生方法提高了染色体构象捕获技术的性能,但仍需要提高信噪比,简化实验步骤,并减少实验和测序成本。华中农业大学曹罡教授团队最近新开发了一种基于简单的酶消化和连接步骤的方法 DLO Hi-C ,该方法使用特异性接头,通过不同的接头组合,配合酶切,得到所需研究的片段,这代替了常规方法中生物素标记和沉淀的步骤,有效地提高了信噪比。

由于原位 Hi-C 是高质量染色体构象捕获的黄金标准,该课题组结合了 DLO Hi-C 和原位 Hi-C 的优势,将切割限制酶改为 MseI,该酶在人类基因组中的靶向位点数目远远超过 MboI 和 HindIII,对于复杂的基因组来说,应该能够捕获更多的染色体接触信息。相比于Hi-C 及其衍生技术,DLO Hi-C 简单、经济实惠、高信噪比且速度快,同时引入了一个早期的质量控制步骤,在测序前可快速评估随机连接噪声的比率,可用于全基因组染色体构象捕获,促进了基因组组装、染色体易位分析和宏基因组学研究。

除了本文提到的技术外,近些年开发了 Hi-C方法的许多变体 :TCC ,通过实施固相连接,TCC 大大提高了信噪比,因此,可以对染色体间相互作用进行详细分析 ;micro-C ,使用微球菌核酸酶代替限制性酶来消化染色质,从而得到核小体层次分辨率的染色体互作图谱 ;RTCC ,TCC 与Tn5 转座酶结合;DNase Hi-C 和靶向DNase Hi-C , DNase I 代替限制性内切酶用于交联 DNA 的断裂;Capture Hi-C ,将 Hi-C 与目标富集相结合; snHi-C , 可检测基因组中染色质特征, 包括Loop、TAD和 compartment 等,且可量化得到单细胞数据。图 1 为一些 3C 及其衍生技术流程图 。

图1 3C及其衍生技术方法流程

2.3 配对末端标签测序分析染色质相互作用(chromatin interaction analysis using paired end tag sequencing, ChIA-PET)

研究者开发了多种技术用于研究转录因子与转录调控的结合,如染色质免疫沉淀 (ChIP) 芯片 (ChIP-chip) 、ChIP-PET  和 ChIP-Seq  等 ;但这些技术无法确定远端 TF 结合位点的靶基因。3C及其衍生技术更大程度上关注的是 DNA-DNA 接触,虽然它们可以和 ChIP 结合来研究调节基因组三级结构的蛋白质因子结合位点,但无法直接确定结合位点间的相互作用。

配对末端标记测序 (ChIA-PET)  是 3C 技术与 ChIP (ChIP-seq) 的组合。像 ChIP-Seq 实验一样,使用甲醛交联细胞核中的 DNA- 蛋白质复合物,随后通过超声处理将复合物破碎成碎片 ;将所需的与蛋白质结合的 DNA 片段用 ChIP 富集,将富含ChIP 的染色质复合物中的 DNA 片段以两个等分试样与两种不同的半连接寡核苷酸连接 ;将两个等分试样混合,并将邻近半连接物彼此连接 ;反向交联后,复合物中的蛋白质被消化并提取 DNA 片段 ;然后用限制性酶 MmeI 消化去除蛋白质,DNA 片段以“标签 – 接头- 标签”顺序形成配对末端标签 (PET)构建体 ;最后,采用新一代测序设备对 PET 测序,如 Illumina Hi-Seq2500。

基于 Tn5 转座酶可将核邻近连接产物随机片段化并插入到 DNA 中 ,将这两种方法整合在一个反应中,提高了 ChIA-PET 文库构建的整体效率。这种较长的标签长度提高了序列比对的准确性,更重要的是,增加了杂合相定位 SNP 的覆盖率,从而使得染色质相互作用的单体型特异性定位成为可能。

配对末端标记测序 (ChIA-PET) 是一种无偏倚、全基因组、高通量的从头开始的方法。在功能研究中,与 Hi-C 相比,ChIA-PET 与更高分辨率的相关蛋白质关联性更好,且由于使用超声打断 DNA- 蛋白质复合物,产生的噪音较小。

2.4 Capture-C

3C 及其衍生技术有一个主要限制是需要大量的细胞,然而,想要从许多主要组织和稀有细胞群体中取得如此庞大的细胞数目较为困难,因此衍生出了一种低需求技术 Capture-C ,它可以利用少量细胞生成高质量的相互作用图谱。

Capture-C 包含可能发生重大数据丢失的两个关键阶段 :3C 库的准备以及将该材料加工成测序文库,这两个阶段的效率决定了所需的最少细胞数量。Oudelaar 等独立地对两个阶段进行了优化 :优化 3C 文库制备,防止消化和染色质连接过程中的 DNA 损失,以及使用锁相凝胶技术 (phase lock gel technology) 进行DNA 回收;随后访问3C 文库时,开发了两种新的基于 Capture-C 的方法,即低输入 (LI) Capture-C 和 Tag-Capture-C。这些方法使用不同的测序文库制备方案,更适合于减少输入。

2.5 DamID

与传统 3C 技术不同,DamID 没有基于邻近连接,而是采用邻近甲基化的方法,通过将大肠杆菌DNA 腺嘌呤甲基转移酶 (Dam) 连接到染色质蛋白上,Dam 可以与体内靶向蛋白的天然结合位点结合,导致局部 DNA 甲基化,随后可以使用甲基化特异性限制酶或抗体来定位甲基化位点。甲基化的限制性位点相邻,扩增时选择密集的甲基化区域,从而提供与核周边相关的染色质图谱 。

DamID 具有一定的优点。首先,DamID 可以鉴定与特定蛋白质在体内相互作用的序列,可用于检测蛋白质 – 靶标相互作用中的定量差异。使用固定剂交联会引起研究中染色质结构的改变,但腺嘌呤甲基化对 DNA 拓扑结构只有微小的影响 ,并且不会干扰内源蛋白或其靶标的功能。其次,DamID可用于细胞培养和整个生物体。第三,DamID 可以与一些技术结合,如与 PCR 结合进行定量分析,可较为灵敏地检测蛋白质 -DNA 相互作用 ;与DNA 微阵列技术结合使用可在全基因组范围内鉴定特定蛋白质的靶基因。

以上提到以及未详细涉及的方法各有优劣及侧重,是从不同层面、角度揭示染色质的空间结构,解决重要的生物学问题。下表为各项技术的简单对比,应结合实际目的,选择合适的方法。

技术通量特点
3C一对一邻近连接
4C一对多反向PCR及高通量测序
5C多对多多个序列的相互作用
Capture-C多对所有低样本量
In situ Hi-C所有对所有原位连接
Singl cell Hi-C所有对所有结合显微操作
BL-Hi-C所有对所有不依赖探针与抗体
OCEAN-C所有对所有不依赖探针与抗体,高效富集
ChIA-PET所有对所有3C技术与ChIP结合,可进行噪声评估
DamID所有对所有鉴定与特定蛋白质相互作用的序列
DNase Hi-C所有对所有DNase I代替限制性核酸

3 三维基因组研究的应用

染色质相互作用的形成和维持是由一系列RNA 和蛋白质因子介导的复杂过程,包括 CTCF 、黏连蛋白  和介体复合物  等。目前,许多研究结果已经证明染色质相互作用是细胞调节基因转录的机制,因此,通过研究染色质的相互作用,可能会发现基因表达的调控机制,以及一些疾病的致病机理等等。

在基因表达调控机制研究中,(1) 鉴于 Hi-C 数据中染色体内接触的密度显著高于染色体间接触的密度,Hi-C 数据可用于基因组组装  和染色体易位鉴定 。使用 Hi-C 技术研究基因组取得了一个很重要的突破 :研究人员发现基因组被划分为两个不同类别的染色质区域,一个是开放和活跃的基因组区域 (“A”区室 ),另一个是封闭和非活动基因组区域“( B”区室 )。这些区域可以分成更小的区域,被命名为“拓扑关联区域”(TAD) 。(2) 染色质相互作用除转录激活外,还可以调节抑制。CTCF可以在某些情况下通过阻断增强子 – 启动子相互作用起到转录绝缘体的作用。(3) ChIA-PET、DNase I超敏反应数据和外显子数据的组合显示,染色质相互作用位于外显子存在的区域 。(4) Splinter 等 证明了非编码 RNA (ncRNA) 分子 Xist 能够塑造女性细胞中失活的 X 染色体。

在临床基因组学研究中,(1) 使用 4C 技术来探索 3 号染色体内的反复性倒位和易位导致急性髓性白血病 (AML) 的机制 。(2) 通过 ChIA-PET 鉴定需与 RNA 聚合酶 II 结合维持的染色质相互作用,显示了胚胎干细胞、神经干细胞和神经球干 / 祖细胞之间的差异 ,突出了染色质相互作用的发育特异性。(3) 使用 Hi-C 方法可以分析与各种基因座相关的特定染色质相互作用,应用于 14 个结直肠癌风险位点 。所有 14 个位点显示出显著的长范围 (> 10 kb) 的相互作用,包括 rs6983267 SNP 和 MYC以及 CCAT1 之间已知的相互作用。(4) 癌症与异常的选择性剪接相关,通过全基因组研究,已经发现超过 15 万个剪接体不同的癌症 。因此,异常的染色质相互作用可能导致异常的共转录剪接,导致形成疾病相关的剪接变体,这些病理变异是染色质相互作用可能引发疾病状态的另一种潜在机制。(5)染色质相互作用调节的抑制状态可能由 H3K27me3标记,处于与癌症相关的多梳复合阻遏复合物 (PRC)的 EZH2 组分的控制之下。在一些癌症,如 B 细胞淋巴瘤和骨髓疾病中已经发现 PRC2 突变 。(6)整合 3D 基因组结构已成为许多全基因组关联研究(GWAS) 的关键部分。GWAS 利用连锁不平衡现象来鉴定标记,通常单核苷酸多态性 (SNPs) 与相关疾病的特定性状相关,从基因分型芯片 (genotyping chip) 上的“标记”SNP 中鉴定疾病相关基因座和靶基因。从发表的 GWAS 研究来看,一半或更多的疾病相关 SNP 位于非编码区 。例如,与胰岛素抵抗、II 型糖尿病和冠心病相关的一组 SNP 可能与 RNA 聚合酶 II 相关染色质相互作用的 IRS1 的使用相关 。(7) 将染色质相互作用用作生物标志物 ,其主要优点之一是能够针对性地分析少数基因区域的结构,对生物标志物进行个性化处理,可为个性化基因组分析提供前所未有的解决方案,将染色质相互作用的分析与其他分子技术相结合,也可增强或验证从其他研究结果的特异性。

4 总结

3C 及其衍生技术的成功开发极大地促进了染色质高级构象的研究,人、鼠、酵母、拟南芥、果蝇、大肠杆菌、水稻等一系列物种的三维结构也逐步被报道,得到了分辨率更高的染色体相互作用视图。改进的数据分析策略也使人们对基因组结构更加了解,这些技术不仅用于研究物种全局性的高级构象,同时还可用于比较分析多样本三维构象的差异。

3C 方法本身有一些局限性,其定量测定接触频率的含义实质上是测定交联和片段化 DNA 序列之间的连接频率。显然,评估更多的定量连接结点,测定结果就会更准确。目前,许多验证研究已经表明,连接效率可以被用作接触频率的代表,但仅此而已,由于许多实验因素的影响,不能直接转化为绝对的体内接触频率。

但就现阶段来说,Hi-C 系列方法是获取细胞内染色质相互作用位点的较为全面的首选方法,它会进一步为基因组、转录组、表观基因组等提供更多、更详细的数据,并且在解释疾病相关机制中起到重要作用。Hi-C 及其衍生技术的主要优点是接触频率测定不受抗体沉淀效率的影响,且不受限于反式作用因素,是“所有对所有”的技术。而 Capture-C 与 Hi-C 相比,可以从少量细胞中生成高质量的相互作用图谱,但成本不一定会更低 ;新开发的 DLO Hi-C 简化了 Hi-C 的步骤,简单、低成本且高效。ChIA-PET 最大的特点是可将循环分析用于特定的蛋白质介导的环,聚焦 DNA 与蛋白质复合物的交联。DamID 与这些方法都不太相同,可以通过检测活细胞中相互作用的情况提供与 ChIP 相似的信息。

目前,三维基因组研究技术仍在快速发展中,需要研究者随时关注技术的革新,或者随着研究的深入开发新的技术。总之,选对合适的技术是研究的基础。

5 展望

如本文所述,近年来,在不断发展的 3C 及其衍生技术下,染色质结构领域出现了前所未有的发展,在转录调控、疾病机制等多方面的应用也越来越多。

随着研究的深入,有关技术将进一步被完善、创新。为了得到不同组织结构的特性,对基因组个性化的研究会越来越多,因此须不断改进单细胞全基因组分析的技术以及计算工具,伴随着测序技术的发展,高通量成像领域也会有更多的发展空间。

同时,通过整合来自染色质构象方法和成像技术的数据,3D 基因组图谱在解释自然发生与疾病相关遗传变异中越来越重要。我们需要进一步提高染色质相互作用分析在疾病中的应用,更清晰地了解如癌症等疾病发生时,染色质内、染色之间发生了怎样的变化,以及是否能有效利用以染色质构象结构变化为靶点的基因药物,治疗性地调控染色质相互作用。除此之外,就转化医学而言,不断改进和加强基于染色质相互作用的生物标记,促进利用染色质相互作用来了解与非编码突变和多态性相关的靶基因的个性化医学进展。

尽管染色质相互作用的研究还未全面发展,但有一点很清楚,即未来通过探索染色质动力学和基因组结构变异,基因组学将会在各个方面带给人们意想不到的收获。