数据向善——数据科学的使命与应用

微软亚洲研究院

数据为善:负责任地使用数据使其造福社会
Data for Good:Ensuring the Responsible Use of Data to Benefit Society

很长时间以来,数据是由科学仪器生成的,比如说对撞机、望远镜、卫星等仪器能生成海量的数据。而今天不同的是,我们人类也在产生大量的数据,这是大数据的一个新现象。我们不仅收集数据,还会对数据进行清理、压缩、加密等等,完成之后我们才将其储存起来,就像一个 DNA 库一样。接下来我们还会去组织数据,以便最终能高效地提取数据,这就是数据管理的作用。然后我们可以进行数据分析,人工智能、深度学习、机器学习这些技术开始发挥作用。最后,我们还要对数据进行可视化,数据必须用直观明了的方式可视化地讲述一个故事。值得注意的是,对隐私和道德的关注贯穿整个流程。我们需要非常关心隐私和道德,就像微软非常关心人工智能的道德和伦理一样。

哥伦比亚大学数据科学研究所所长周以真教授

数据科学的使命

数据科学是什么?数据科学是从数据中发掘价值的研究,这里面的关键词就是价值。价值取决于终端用户的解释。对于科学家来说,价值就是发现新知识;对于天文学家来说,仰望星空就是为了发现新的行星;对于企业家来说,价值就是利润。刚刚说到的人工智能、机器学习、深度学习都是孕育价值的工具。

哥伦比亚大学数据科学研究所有300多位老师,遍布于17个系,涵盖了所有的学科,涉及医疗、法律、商业等专业;有几大研究中心,包含金融分析、医疗分析、传感等研究方向。我们非常欢迎中国学生,也会一直欢迎中国学生。

我们的数据科学研究一共有三个使命:一是推动数据科学前沿领域的发展。数据科学是一个全新的领域,数据科学的基石是计算机科学、统计和云研究。二是通过数据科学转变各个领域和行业,实际上数据科学家遍布我们的学校,这种转型也涉及各个学科。第三个使命是保证数据被负责任地使用,使其造福社会。我们要解决气候变化、医疗卫生、社会公正等带来的各种挑战,同时还要负责任地使用数据,关注数据道德和隐私的问题。总结一下,如果今天大家要从我的演讲里收获什么,或者大家想从我的演讲中记住一点,那就是 Data for Good——数据要用来做好事,要负责任地使用数据。

推动数据科学前沿进展

接下来介绍一个我们的数据科学研究。它来自一个融合了统计学、计算机科学和社会科学的全新领域——因果推理。这对计算机科学、数据科学还有人工智能都有很重要的意义。我们想要解决的问题叫做多因果推理(Multiple Causal Inference)。传统的因果推理是单向的,一个原因带来一个结果,而在这里我们关注的是多个因果的联系。举个例子,假设导演想要拍电影,在挑选演员的时候他们想先预测一下用哪个演员能带来多少收入。我们现在有一个数据库,包含电影名、演员还有票房等数据,我们想通过统计的方式知道每个演员能转化成多少票房。这个工作的难点在于,这里面有不少混杂因子,既影响因,又影响果。比如说,电影的类别就是一个混杂因子,因为大部分时候动作片就比艺术片票房要高;还有电影的叙事方式也对票房有影响。这些混杂因子会影响建模。

传统的方法可能会先列出所有的影响因子,计算一下可能结果,但是否已经测量了所有的混杂因子是不可证伪的。于是我们提出了一个想法——去除混杂因子(Deconfounder)。这是一种结合了无监督机器学习和预测模型检测的算法,推断潜在变量将其作为未观察到的混杂因子的替代,然后用这个替代来执行因果推断,估计“接近真实”的因果效应。Deconfounder 有三个特点:比经典因果推断更弱的假设;对混杂因子的替代效果是可以检测的;无偏推断。

回到电影选角的例子,我们通过 Deconfounder 的方法测量了007系列电影中演员的票房影响力,发现经过去除混杂因子后,Sean Connery(James Bond)的价值比没有去除混杂因子前提高了不少,而另外两个演员 Bernard Lee(M)和 Desmond Llewelyn(Q)的价值却下降了。事实上,多因果推断在现实生活中有很多应用,比如基因分析、挑选运动员还有商品定价等,有助于解决很多现实问题。

用数据科学转变各行各业

数据科学的第二个使命是将其应用在各个不同领域中,譬如生物学、经济学、金融学、天体物理学等学科,推动各行各业的转型。

我们和微软合作了一项研究,将机器学习与经济学结合,研究人工智能众包平台 Amazon Mechanical Turk 这样的劳动力市场,是否是一种买方垄断(即只有一个买方而有多个卖方,此时买方具有垄断性,可以付出较低的价格),它可能不是一个公平的劳动力市场。

另一个例子是强化学习在金融工程中的应用。现在很多金融机构都会用机器人投资顾问,不用花几个月的时间,几分钟就可以通过强化学习学到你的风险偏好,而且现在和机器人交流越来越能够像与真人交流一样流畅。

还有一个完全不同的领域——历史。哥大历史系正在用机器学习模型、舆情分析等方式去分析历史文本,例如,每年历史系教授都会在美国政府发布的文件中搜集文本,比如搜集70年代外交官相互发的外交传电,通过分析和可视化这些文件,来理解70年代发生的历史事件。

Data for Good:负责任地使用数据

如何以负责任的方式使用数据,并以数据为方式应对社会挑战?

前面沈向洋博士讲到了微软的人工智能六大原则,我把它们调整顺序重新组合,变成这样一个缩写“FATES”,分别是公平(Fairness),负责任(Accountability),透明(Transparency),道德(Ethics),安全、保障与隐私(Safety,Security,and Privacy)。

数据助力安全与保障

我想重点谈一下“S”,安全、保障与隐私。这个项目叫 DeepXplore,它是用编程语言和软件工程的方式去测试深度学习系统的一个白箱框架,通过神经元覆盖(neuron coverage)和差分测试(differential testing)去发现 DNN 的很多意想不到的缺陷。什么是神经元覆盖?在软件工程中,测试程序会用到代码覆盖,为软件每一个路径创建一个测试,神经元覆盖的思路与之类似,比如创建一些输入的事件实例去覆盖每一个神经元,然后我们就会发现很多错误。这项工作也获得了 SOSP 的最佳论文奖。

另一个项目 PixelDP,现在有很多研究都揭示出 DNN 的脆弱性,连非常简单的涂鸦都会改变 DNN 的分类结果,而在自动驾驶时如果认错了交通标识,可能会导致非常严重的后果。这个研究工作受到了差分隐私(differential privacy)的启发,这个理念来自于密码学,我们把它嫁接到机器学习中,试图使 DNN 更加强大,以应对图像中的污染等情况。我们给 DNN 增加了一个噪声层,可以确保将输入中污染的影响控制在一定范围内,让分类器不会认错。

用数据应对广泛的社会挑战

虽然这方面的研究还处于初期阶段,我们希望数据能帮助人类应对许多社会挑战,比如下面展示的两个气候和医疗的例子。

大数据和机器学习可以帮助农民选择更合适的播种作物,来减少多变的气候对农业产量的威胁。研究者研究了印度种植的5种农作物的数据,小米、玉米、水稻、珍珠米和高粱。很多农民会大范围种植水稻,但是水稻对降水、气温、土壤等条件的变化都比较敏感,在遇到频繁气候变化时,在一种稻米上孤注一掷就可能导致国家的农业总产量下降,使得粮食供应受到影响。因此我们的研究对印度的作物种植多元化给出了一些建议,有助于抵御气候变化的不利影响。

下面这个例子是一个全球性的医疗项目 OHDSI(Observational Health Data Sciences and Informatics),我们看到的是来自25个国家的6亿患者的电子病例数据,都用同样的格式对数据进行收集整理,这些数据令人惊叹,可以使我们深入了解仅靠临床了解不到的医疗情况。

之前讲到探究多因果的关系是一个去混杂因子的过程,如果只用简单的线性回归的模型看某种药物的效果,可能会无法发现这种药物到底是因是果,不能有效地找到因果关系。在多因果关系的推理框架下,去混杂因子是非常有前景的,比如在梳理这些病例数据的时候。

最后请大家记住“Data for Good”,谢谢。

蛋白质自组装机器在人工多酶复合体系中的研究与应用进展

上海交通大学生命科学技术学院

常晴 殷亮 张勇 冯雁

多酶耦联所形成的代谢途径对生物体的正常生理代谢及重要代谢物的制备具有重要意义,如糖酵解途径、类异戊二烯化合物的合成、脂肪酸的合成与代谢、黄酮类化合物的合成和嘌呤生物的合成等。研究表明,由于多酶体系分散度高,造成体系代谢流量不平衡,代谢效率和产量降低;而在某些天然代谢途径中,由于通路中多个催化元件能进行自组装,存在底物通道效应和协同作用机制,因而使多酶复合体催化效率提高。近年来,运用合成生物学的思想和理念,在微生物细胞体内、体外模拟和构建人工多酶复合体系,能够提供更多能源节约型和环境友好型的产品,显示了重要应用前景。目前已成功地实现了代谢通路的异源重建和重要化合物的合成,如抗疟疾药物青蒿素前体青蒿酸、抗氧化剂番茄红素、抗癌药物紫杉酚前体以及生物能源正丁醇等。由于微生物胞内环境的复杂性,人工代谢途径的效率和产率普遍较低,重要原因之一可能在于人工构建的多酶复合体系并没有解决天然多酶体系的底物通道和临近效应,即由于底物扩散效应和胞内多酶体系中各个元件的比例和空间定位无法控制,底物及中间产物不能高速有效地传递到代谢通路中的下一个酶,导致代谢通路流速和流量的不平衡;有毒中间产物的积累也会加重细胞的代谢负担,甚至造成细胞的死亡。因此,建立有序的和高效组装的生物脚手架 (scaffold)以提高多酶体系的催化效率已成为重要的研究课题。

研究发现,自然界的生物体中存在大量的蛋白质分子自组装体系,如纤维素小体机器、信号通路骨架蛋白、纤维样淀粉颗粒蛋白、分子伴侣蛋白,以及相关转录因子等。科学工作者巧妙地应用这些大分子自组装机制,设计构建了具有自组装能力的 DNA 脚手架、RNA 脚手架及蛋白质脚手架,并成功地应用于代谢通路多酶体系的组装,极大地提高了代谢效率。本文结合相关研究实例,重点介绍蛋白质分子机器的研究进展。

1 纤维素小体机器(cellulosome)

厌氧性细菌来源的纤维素小体是一个研究较为清楚的多酶复合体系,它包含一个非催化的纤维素结合结构域 (cellulose binding module, CBM) 以及多拷贝的黏连蛋白 (cohesin) 结构域,与纤维素水解酶系中的对接蛋白 (dockerin) 结构域结合组装形成纤维小体,极大地增加了多酶协同效应,促进厌氧菌对植物细胞壁纤维素的降解和利用。

微生物纤维素小体中存在两种类型的 cohesin 与 dockerin 结构域,纤维素水解酶组装到由多拷贝的 I型 cohesin 组成的骨架上,通过一对 II形 dockerin-cohesin 结构域将纤维素小体锚定在细胞膜上 (图 1)。 cohesin-dockerin 模块间纳摩尔级别的亲和力使其成为理想的体外骨架系统材料。

图1 纤维素多酶复合体结合模式图

Bayer实验室首次尝试将不同来源的纤维素小体 cohesin 结构域模块拆分并重构形成“嵌合脚手架”,将不同数目的纤维素酶家族水解酶,如葡聚糖酶、糖苷酶、木聚糖酶等与同源的 dockerin 模块融合,通过 cohesin-dockerin 相互作用自组装形成人工小型纤维素小体机器,与简单多酶混合体系相比,对纤维素的水解效率提高了数倍。这表明不同来源纤维素小体模块完全可以作为独立元件发挥功能,同时人工纤维素小体高效地实现了多酶体系的体外自组装,增强了水解酶的协同效应。 Zhang 实验室通过细胞膜结合蛋白 lysM 将脚手架 mini-cipA 展示在枯草芽孢杆菌细胞表面,与融合 dockerin 模块的内切葡聚糖酶 Cel5、Cel9 和纤维二糖水解酶 Cel48 组装形成纤维素小体 -微生物细胞复合体,与无细胞纤维素小体相比,对微晶纤维素和无定形纤维素的水解能力分别提高了 4.5 和 2.3 倍。 2012年,Zhang 实验室将一个融合 CBM 及 intein 结构域的小型脚手架 CBM-intein-scaffoldin,及融合 dockerin 模块的糖酵解途径的异构酶、醛缩酶、果糖 1,6二磷酸酶在大肠杆菌中诱导表达及裂解后,将所有裂解液与无定形纤维素混合,利用脚手架模块 cohesin-dockerin 及 CBM-纤维素高亲和力相互作用,仅用一步反应成功实现了多酶体系的自组装及非色谱技术的纯化,有效节约了实验时间与成本,与无骨架多酶混合体系相比,促进了多酶体系的协同效应,将途径的反应速率提高了 48 倍。纤维素小体模块间高亲和相互作用也可以用于多酶体系的回收及循环使用,将两个融合 dockerin 模块的磷酸酶 CBP(cellobiose phosphorylase) 和 PGP(alpha-glucan phosphorylase) 自组装到一个包含 CBM3 模块的人工小型脚手架上,利用包含有微晶纤维素成分的纳米磁性颗粒 A-NMPs 与 CBM3 的高亲和力,在外加磁场的作用下可以将组装在脚手架上的 CBP、 PGP 从发酵液中分离出来使其能够循环使用,极大地提高了酶的使用效率,降低了生物转化中的应用成本。

此外,纤维素小体复合体还被应用于生物乙醇的生产中。通过酵母表面展示系统和纤维小体蛋白脚手架将多个纤维素水解酶展示在酿酒酵母细胞表面,协同高效地将纤维素水解为可用于发酵的葡萄糖,有效地提高了乙醇的产量。如 Tsai等利用纤维素小体脚手架和酵母展示系统 AGA1-AGA2 将三个纤维素水解酶——内切葡聚糖酶 (endoglucanase)、外切葡聚糖酶 (exoglucanase) 和葡萄糖苷酶(glucosidase) 展示于酵母 S. cerevisiae BY4742 表面,通过调节和优化水解酶和骨架比例,实现了乙醇产量的提高。随后,他们通过酵母展示系统将由 2个不同来源的 cohesin 元件组成的小型脚手架 I 通过 AGA1-AGA2 蛋白串联锚定在酵母细胞表面,将另外 2 个融合有 dockerin 标签的由 2 个 cohesin 模块组成的小型脚手架 II 和 III 组装在脚手架 I 上,通过自组装的“接头”元件创新性地在酵母细胞表面展示了两个脚手架,增加了水解酶的结合位点,将 2 个拷贝的内切葡聚糖酶 Gt 和 β-葡萄糖苷酶 Bglf 组合组装在脚手架上,与无骨架的酶混合物相比,对磷酸膨胀纤维素 (PASC) 的水解活力提高了 4.2 倍。谭天伟实验室利用同样的策略,用酵母展示系统 AGA1-AGA2 蛋白将多分子纤维素小体 II 型 cohesin 模块串联展示在酵母细胞表面,将 3 个由 I 型 cohesin模块与 1个 II 型 dockerin 模块融合组成的 I 型脚手架 dockerin II-CBM-(cohesin I)3,通过 cohesin-dockerin 相互作用,将其多拷贝组装到酵母表面 II 型脚手架上,极大地增加了纤维素水解酶的结合位点,形成人工纤维素小体超分子机器,将融合有 I 型 dockerin 的内切葡聚糖酶 celCCA、纤维二糖水解酶 celCCE 和 β-葡萄糖苷酶 Ccel2454 组装到超分子机器上,极大提高了酶的区域浓度和协同效应,提高了对微晶纤维素的水解能力,以微晶纤维素为原料进行发酵实验,将乙醇的产量提高到了 1412 mg/L。

当前的研究集中于对纤维素小体结构模块的拆分和重组,主要用于胞外纤维素水解酶类的协同作用研究,尚没有在胞内自组装体系中的应用研究。纤维素小体 cohesin 和 dockerin 结构元件特异高亲和力的相互作用机制,为构建高效多酶自组装机器提供了重要的生物元件,但由于 dockerin 结构域需要钙离子结合才能形成有功能的构象,而细胞内钙离子浓度较低,限制了其在胞内的应用。

2 信号通路蛋白骨架系统

在细胞信号转导与传递通路,如细胞内激酶与磷酸化级联通路中存在着大量的信号配体、受体蛋白元件,配体与受体之间高亲和力的结合和组装使其成为理想的蛋白质骨架元件。Keasling 实验室利用信号通路蛋白元件 GTPase 结合结构域 (GBD)、接头蛋白 CRK 的 SH3 结构域、 PSD95/DlgA/Zo-1 结构域 (PDZ)作为蛋白质骨架,将甲羟戊酸合成通路的 3 个酶——乙酰乙酰辅酶 A 硫解酶 (AtoB)、羟甲基戊二酸辅酶 A 合酶 (HMGS)、羟甲基戊二酸辅酶 A 还原酶 (HMGR)与 GBD、SH3、PDZ对应的配体元件融合,将骨架与酶在 E. Coli 中共表达,通过对蛋白质骨架 (GBD)x-(SH3)y-(PDZ)z 中各骨架元件比例的控制 (图 2),与无骨架系统多酶混合体系相比,将甲羟戊酸产量最大提高了 77 倍。使用相同的策略, Moon 等利用该骨架系统将葡萄糖二酸 (glucaric acid) 合成途径中的 3 个酶,即 1-磷酸肌醇合酶 (Ino1)、肌醇氧化酶 (MIOX)、糖醛酸脱氢酶 (Udh) 以不同的比例组装到脚手架上,将葡萄糖二酸的产量最大提高了 5 倍。Yu 实验室利用同样骨架系统和策略,在酵母细胞中将白藜芦醇合成通路中的 4-香豆酸辅酶 A 连接酶 (4CL) 和对二苯乙烯合成酶 (STS) 组装到蛋白质脚手架上,以香豆酸为前体合成白藜芦醇,与融合蛋白系统相比产量提高了 2.7 倍,与无蛋白骨架的体系相比,产量增加了 5 倍。

图2 蛋白质骨架介导的多酶体系在大肠杆菌中的可控组装

细胞内存在大量的自组装配体 ——受体小分子蛋白,因此选择分子量、结构合适,并有特异高亲和结合能力的信号通路蛋白质元件,通过合理设计与优化组合元件可以有效地控制代谢流速和流量,提高代谢产物的产量。但从上述研究也可以看出,使用同样的蛋白质骨架对不同多酶体系代谢效率的影响是不同的,这可能是因为不同代谢途径中的限速步骤或者限速酶是不同的,不同的酶分子由于其结构差异,同样也影响其在蛋白质骨架上的组装效率和空间定位;同时,胞内多酶复合体的结构与空间定位也是无法准确预测的。因此,对不同通路的代谢效率的影响不能简单类比,综合利用蛋白质脚手架和其他代谢工程手段才能最大化地提升代谢效率。

3 自组装脚手架蛋白

生物体内存在多个同源和异源自组装蛋白, Lindquist 实验室发现酿酒酵母的 Sup35p 蛋白可以自组装形成高化学稳定性的淀粉样纤维。张先恩实验室将 Sup35p 蛋白 N 端 1-61 个氨基酸残基与甲基对硫磷水解酶 MPH 及 pH 敏感性的绿色荧光蛋白突变体融合,利用 Sup35p 的自组装特点,构建了具有更高灵敏性的荧光分子探测器。他们将 Sup351-61 片段分别与一个 pH 非常敏感的绿色荧光蛋白突变体 E2GFP 和甲基对硫磷水解酶 (MPH) 融合,通过体外自组装将 MPH 和 E2GFP 高密度展示在纳米线上,获得了灵敏度极高的生物纳米传感器。 Han 等将纤维素小体 cohesin 和上游的亲水 HD 结构域与酿酒酵母纤维样自组装蛋白 Ure2p 的 N 端结构域融合, Ure2p1-80-HD-cohesin (UHC) 融合蛋白成功地在 E. coli 中实现了表达,在胞内自组装合成了大分子的纳米纤维;在体外通过纳米线展示多拷贝的 cohesin 原件,将 UHC 融合蛋白通过 Aga1p 和 Aga2p 蛋白锚定在酿酒酵母细胞表面,将红色荧光蛋白 mCherry 和纤维降解梭菌来源的内切糖苷酶 CelA 通过 dockerin-cohesin 展示在纳米线上, mCherry 的荧光强度提高了 24 倍,CelA 活性提高了 8 倍,表明通过纤维样蛋白的自组装可以将高浓度的蛋白质或酶展示在纳米线上。但由于纤维样蛋白自组装机制目前还不清楚,因此无法在胞内外对其进行有效控制,形成的纳米线很容易聚集和缠绕,无法作为骨架实现对异源多酶体系的组装,但因其高效的自组装能力仍具有作为蛋白质骨架材料的巨大潜力。

除上述淀粉样纤维蛋白外,来源于杨树 (Populus tremula) 的 SP1 蛋白可以自组装形成同源十二聚体。 Shoseyov 实验室首次将 SP1 蛋白与葡萄糖氧化酶 GOX 融合,在大肠杆菌中表达后形成包涵体,复性后的 GOX-SP1 自组装形成巨大的蛋白质十二聚体,复合体在 65 °C 的半衰期比 GOX 单酶提高了 2 倍。Bayer 实验室将 SP1 与 cohesin 结构域融合,胞外自组装形成的十二聚体表面可展示 12 个纤维素酶,极大地提高了纤维素酶的比活。来源于噬热古菌芝田硫化叶菌 (Sulfolobus shibatae) 的分子伴侣蛋白 rosettasome,可以自组装形成双层堆积的十八聚体结构。 Mitsuzawa 等将该蛋白质与 cohesin 结构域融合,表面可展示 18 个融合有 dockerin 结构域的纤维素酶,极大地提高了纤维素酶的活性,但这个蛋白质骨架的形成需要 ATP 与 Mg2+ 的存在。尽管上述自组装体系可以同源自组装形成多聚体,高密度展示多个单酶分子,但由于同源自组装的随机性,无法实现多酶体系有序组装。

增殖细胞核抗原 PCNA (proliferating cell nuclear antigen) 是一个可与双链 DNA 结合的三聚体环形蛋白质骨架,可以结合 DNA 相关的酶,如 DNA 解旋酶、 DNA 聚合酶等,使其协同高效地相互作用,保证 DNA 的生命活动的高效进行。 PCNA 蛋白一般都是同源三聚体,但古细菌 Sulfolobus solfataricus 具有三个独特的 PCNA 基因,即 PCNA1、PCNA2、 PCNA3,它们表达的 3 个蛋白质可以自组装形成一个异源三元环复合体结构。 Hirakawa 和 Nagamune 利用该系统,将细胞色素 P450 系统中的 3 个蛋白 P450、PdX 和 PdR 分别与 PCNA3、PCNA2 和 PCNA1 融合表达,表达的可溶性蛋白通过 PCNA 自组装体系形成一个多酶复合体系,将 P450 系统单加氧酶活性提高了 52 倍。

4 转录因子介导的蛋白质组装

真核生物细胞中存在的转录因子元件,如锌指 (zinc-finger) 结构由于与对应的转录调控 DNA 序列之间特异性高亲和力的相互作用,使其成为理想的骨架结构元件。

Conrado 等利用锌指结构与 DNA 结合序列之间高亲和力特异的相互作用机制,设计了可控的 DNA-蛋白质骨架系统,他们将锌指元件 Zif268、 PBSII 以及白藜芦醇合成通路中的 4-香豆酸辅酶 A 连接酶 (4CL) 和对二苯乙烯合成酶 (STS) 融合,通过在质粒上控制与锌指元件特异结合 DNA 序列的比例与距离,将白藜芦醇在大肠杆菌中产量提高了 50 倍;同样的策略应用于三酶体系,实现了 1,2-丙二醇、甲羟戊酸产量的提高。 Lee 等将 L-苏氨酸合成通路中的相关基因高丝氨酸脱氢酶 (HDH)、高丝氨酸激酶 (HK) 和苏氨酸合酶 (TS) 与锌指原件融合组装到质粒 DNA 上,以天冬氨酸半醛为前体,成功地在大肠杆菌中合成了 L-苏氨酸;结果表明,利用锌指 -DNA 骨架系统加快了酶对有毒中间产物高丝氨酸的转化速率,降低了其过量积累对宿主细胞的毒性,提高了细胞的生长速率,将反应速率提升了 50%,减少了能耗,提高了苏氨酸产量。但质粒 DNA 作为骨架仍然存在一定的缺陷,如在质粒上串联多个重复序列容易引起分子内的同源重组,伴随着细胞分裂,易造成锌指结合序列的丢失;同时,质粒易形成超螺旋结构,影响酶分子的空间定位和有效组装。

天然蛋白质结构中存在大量亮氨酸拉链结构,亮氨酸拉链通过螺旋 -螺旋相互作用形成二聚体,可以将两个蛋白质或 domain 连接起来。 Banta 实验室在酶蛋白的两端引入亮氨酸拉链结构,通过螺旋 -螺旋结构之间的相互作用,将酶分子自组装形成水溶胶。研究表明,高密度交联的水溶胶并没有影响酶的活性,同时提高了酶的稳定性和催化效率。因此,合理设计具有高亲和力和特异性相互作用的亮氨酸拉链结构,对于人工多酶复合体系的设计和构建具有重要的应用价值。

5 研究前景与展望

合成生物学通过对酶分子等生物学元件在微生物和其他细胞中的有序组装来实现功能分子和化合物的生产和合成,具有合成化学不具备的资源节约和环境友好型的特点。然而,合成生物学存在的最大的困难和问题在于代谢途径的调控,因此,当前合成生物学领域的大量研究集中于对代谢途径的有效调控上,在众多的研究策略中,合理设计并利用自组装的蛋白质骨架对于提高代谢效率,增加代谢通路的可控性具有重要价值和前景。

当前对蛋白质骨架的研究主要集中在功能骨架元件的挖掘、重组上,大多数研究主要应用于较短的,如 2~3 个酶组成的代谢通路中,但许多重要的合成途径或代谢通路都需要更多的元件协同作用,目前尚没有将蛋白质骨架应用于多元件途径的相关研究,主要原因可能在于大小合适且具有较高特异性相互作用的骨架元件数目有限,并且能够组装更多酶分子的大型蛋白质骨架的设计和有效组装不易实现。

因此,挖掘新的蛋白质自组装元件,优化组合已有的蛋白质元件,并借鉴纳米及相关生物材料等学科关于自组装的研究思路和成果,设计和构建具有高效自组装能力的蛋白质分子自组装机器,是促进代谢效率,增强代谢途径可控性的重要研究手段。