基因工程

根据基因的定义,基因本质上是核酸分子中的一段特定的序列,它包括编码蛋白质肽链或 RNA 的核酸序列,以及保证转录所必需的调控序列。不同种类的生物,其基因结构有所不同。随着分子生物学等学科的发展以及 DNA 分子克隆技术、核苷酸序列分析技术、核酸分子杂交技术等现代生物学实验手段的出现,使我们能够从分子水平上研究基因的结构与功能,并不断丰富与深化我们对基因本质的认识,为基因工程技术的应用奠定了坚实的理论基础。

DNA 重组技术一般文献中所说的基因克隆技术或重组 DNA 技术是指将一种生物体(供体)的基因与载体在体外进行产物或新性状的 DNA 体外操作程序。这其中,供体、受体、载体是重组 DNA 技术的三大基本元件。习惯上,基因克隆与基因工程含义相近,并未严格区分(文献中常用的其他同义词包括重组 DNA ,分子克隆,遗传工程等),但细分起来,这两个名称之间存在明显差别。基因克隆强调目的基因的克隆过程;而基因工程则着重于克隆工作的全局和整体。因此,基因工程是重组 DNA 技术的产业化设计与应用,包括上游技术和下游技术两大组成部分。上游技术指的是基因重组、克隆和表达的设计与构建;而下游技术则涉及基因工程菌或基因工程细胞的大规模培养以及基因产物的分离纯化过程。

综上所述,基因工程(genetic engineering)是指:利用重组技术,在体外通过人工“剪切”和“拼接”等方法,对各种生物的核酸(基因)进行改造和重新组合,然后导人微生物或真核细胞内进行无性繁殖,使重组基因在细胞内表达,产生出人类需要的基因产物。或者改造、创造新的生物类型。显然,基因工程操作中包含外源 DNA、载体分子、工具酶和受体细胞 4 个要素。

基本步骤基因工程技术自诞生以来已经取得了巨大的成就,特别是一些现代技术和先进仪器的不断涌现,进二步推动了基因工程技术的发展,但一个完整的、用于生产目的的基因工程技术程序包括的基本步骤有以下几个主要方面:

  1. 采用各种方法从复杂的生物体基因组中分离获得带有目的基因的 DNA 片段。
  2. 在体外,将带有目的基因的外源 DNA 片段连接到具有自我复制功能及筛选标记的载体分子上,构建成重组 DNA 分子。
  3. 将重组 DNA 分子转移到宿主细胞,并随宿主细胞的繁殖而扩增。
  4. 从细胞繁殖群体中筛选出获得了重组 DNA 分子的受体细胞克隆(称为重组子)。
  5. 从筛选出来的受体细胞中提取已经得到扩增的目的基因,以做进一步的分析鉴定。
  6. 将目的基因克隆到合适的表达载体上,导人宿主细胞,构建成高效、稳定的具有功能性表达能力的基因工程细胞,或转基因生物体系。
  7. 利用工程技术大规模培养上述的基因工程细胞,获得大量的外源基因表达产物,或选育和建立转基因新品系。
  8. 工程细胞表达产物的分离纯化,并最后获得所需的基因工程产品,或实验研究及推广应用转基因新品系。

上述 8 个步骤也可归并为两大部分,分属上游技术和下游技术。其中上游技术包括 1 ~ 5 ;下游技术包括 6 ~ 8 。两大部分有机结合成为一个整体:上游技术是基因克隆的核心与基础,上游设计中应以简化下游工艺和装备为指导思想;下游技术则是上游基因克隆蓝图的体现和保证,是克隆基因产业化的关键,两者必须兼顾,这是一个基本原则。

转录调节因子

真核生物的结构比原核生物复杂,所以真核生物的基因表达除了需要活化染色质,还需要活化基因,即转录水平的调节,而且转录水平的调控是真核生物基因表达调控中最关键的调控阶段。在转录水平的调节中,顺式作用元件和反式作用因下相互作用,共同控制着基因转录的起始和频率。

转录前水平的调控

顺式作用元件

顺式作用元件是真核生物细胞同一 DNA 分子中具有转录调节功能的特异 DNA 序列,主要指上游的调控区域内能与转录因子结合并影响基因转录的起始和频率的特异性 DNA 调控序列。按功能特性,真核基因顺式作用元件分为启动子、增强子及沉默子,起正调控作用的顺式作用元件主要包括启动子和增强子,起负调控作用的顺式作用元件主要指沉默子。

启动子

启动子是 RNA 聚合酶识别并结合的一段特异的 DNA 序列,是准确和有效地起始转录所必需的结构。真核生物有三种 RNA 聚合酶Ⅰ、Ⅱ、Ⅲ,它们分别负责rRNA、mRNA 和 tRNA 以及其他小分子 RNA 的转录。rRNA 的合成主要在核仁(nucleolus)进行,RNA 聚合酶 Ⅱ 与 Ⅲ 主要在核浆(nucleoplasm)中合成 RNA。通过对 RNA 聚合酶 Ⅱ 作用机制的研究发现,整个启动子是由近段的核心启动子和上游启动子元件(upstream promoter element,UPE)两个部分构成的。真核基因核心启动子包括转录的起始位点(initiator,Ior)和上游 -30~-25bp 处的 TATA 盒。起始位点的共有序列是 Py2CAPy5,即mRNA的第一个碱基通常为 A,左右有数个嘧啶。TATA 盒的核心共有序列是 TATAA,控制转录起始的准确性及频率。TATA 盒是基本转录因子 TFⅡD 的结合位点。实验证明,TATA 盒内单个碱基缺失或者突变,转录水平会大大下降。由 TATA 盒及转录起点即可构成最简单的启动子。除 TATA 盒外,GC 盒(GGGCGG)和 CAAT 盒(GCCAAT)也是很多基因常见的上游启动子元件,它们通常位于转录起点上游 -110~-30bp 区域。CAAT 盒的序列是 GGCCAATCT ,是转录因子 CTF/NF1 的结合位点。CAAT 盒对转录的效率十分重要,但并非所有的真核生物都有该序列。GC盒也并非所有的真核生物都有,它的全序列是 GGGGCGG,是转录因子 Sp1 等的结合位点,主要控制转录起始的频率,但它们都不参与起始位点的确定。有些 TATA 缺失(TATA less)的基因不含有 UPE,但常有下游启动子元件,位于 +28~+32bp。总结起来,Inr 和 TATA 盒主要决定转录的起始位点和方向,引起低水平的转录,而 UPE 能影响转录起始的频率,它通过和各种调控因子相结合,促进转录起始复合物的组装,提供转录起始的频率。

增强子

增强子(enhancer)是指远离转录起始点(1~30kb),增加同它连锁的基因转录频率的 DNA 序列。有效的增强子可以位于基因的 5′-端,也可位于基因的 3′-端,有的还可以位于基因的内含子中。增强子的效应很明显,一般能使基因转录频率增加 10~200 倍,有的甚至可以高达上千倍。增强子也是由若干机能组件组成,有些机能组件既可在增强子也可在启动子中出现。这些机能组件是特异转录因子结合 DNA 的核心序列。从机能上讲,没有增强子存在,启动子通常不能表现活性。没有启动子时,增强子也无法发挥作用。有时,对结构密切联系而无法区分的启动子、増强下样结构统称启动子。增强子发挥作用的方式与方向、距离无关,甚至远离靶基因达几百万碱基也仍有增强作用。

增强子的功能是可以累加的。缺失试验显示,SV40 增强子序列可以被分为两半,缺失一个并不产生什么影响,但如果两个均缺失即会大大降低活体内的转录。每一半序列本身作为增强子功能很弱,但合在一起,即使其中间插入一些别的序列,仍然是一个有效的增强子。因此,要使一个增强子失活,必须在多个位点上造成突变。

增强子能大大增强启动下的活性。增强子有两点有别于启动子:一是增强子对于启动子的位置不固定,而且有很大的变动;二是它能在两个方向产生作用一个增强子并不限于促进某一特殊启动子的转录,它能刺激在它附近的任一启动子。增强子的作用原理是什么? 增强子如何能在如此远的距离之外还能够增强基因的表达? 一种观点认为增强子为转录因子进入启动子区的位点提供帮助,提高了启动子附件转录因子的聚集度;第二种观点认为,增强子能改变染色质的构象,因为增强于区域容易发生从 B-DNA 到 A-DNA 的构象变化。

许多增强子的增强效应有很高的组织细胞专一性(tissue specificity),只有在特定的转录因子(蛋白质)参与下,才能发挥其功能。例如免疫球蛋白基因的增强子只有在 B淋巴细胞内活性才最高。除此以外,在胰岛素基因和胰凝乳蛋白酶基因的增强子中都发现有很强的组织特异性。此外,所有的增强子中均有一段由交替的嘧啶-嘌呤残基组成的 DNA,这种 DNA 极易形成 Z-DNA 型。故有人认为,在形成一小段 Z DNA 后,增强子才有功能。

增强子还受外部信号的调控,这种增强子的活性通常要有特定的启动子参与。例如,小鼠乳腺肿瘤病毒(MMTV)DNA 的转录可受糖类固醇激素的刺激。这个能受激素影响的顺序位于转录起点上游 100bp 处。此顺序可能和激素及其蛋白受体组成的复合物相结合。当将此顺序放在某基因的启动子的任二方向(上游或下游)和各种不同的距离时,它仍能刺激该基因的转录。因此,增强子还反映了瞬时调控(temporal regulation)的特性,其激活作用可能是:糖类固醇激素进入细胞后即与其受体结合。结合作用激活受体,使其能识别存在于增强子中的共同顺序,进而激活了在增强子附近能对糖类固醇起反应的基因。即当糖类固醇受体复合物和增强子结合时,其附近的启动子即起始转录。

沉默子

沉默子(silencers)是指某些基因含有的一种负性调节元件。当其结合特异蛋白因子时,对基因转录起阻遏作用。沉默子的 DNA 序列可被调控蛋白识别并结合,这样就阻断了转录起始复合物的形成和活化,关闭基因表达。沉默子最初是在酵母细胞中发现的。酵母细胞的 MAT 基因和 HMR、HNL 基因的启动子都存在于具有相同序列的 Y 区,但 MAT 基因可以转录,而 HMR、HML 基因却不能转录。缺失分析发现,在 HMR、HML 基因上游 -1kb 的位置存在沉默子,因此阻止这两个基因的转录。

基因座控制区

基因座控制区(locus control region,LCR)是染色体 DNA 上的一种顺式作用元件,结构域中含有多种反式作用因子的结合序列,可能参与蛋白质因子的协同作用,使启动子处于无组蛋白状态,增强相关基因的表达。如人类 β-球蛋白在转基因小鼠中的表达还需要 ε 基因 20kb 上游的一组顺式作用元件,这些元件对 DNaseⅠ 具有高度敏感性。同一 LCR 可以调控在不同染色体上的基因群表达,其原理尚不十分明了。

绝缘子

绝缘子(insulator)能阻止正调控或者负调控信号在染色体上的传递,阻断包括增强子、沉默子和 LCR 的作用,使染色质活性限制在一定结构域之内,它是一种中性的转录调节顺式元件。如果绝缘子位于增强子和启动子,只能作用于特定的启动子,防止增强子毫无选择地作用于任何启动干。相反,如果绝缘子位于活性基因和抑制因子之间,可以保护活性基因受抑制因子的作用而失活,绝缘子还可以阻断异染色质的扩散。

反式作用因子

大多数真核转录调节因子由某一基因表达后,可与另一基因上特异的顺式作用元件相互作用,从而激活或抑制另一基因的转录,这种调节蛋白称反式作用因子。反式作用因子的重要特点是编码反式作用因子的基因与被反式作用因子调控的靶序列(基因)不在同一染色体上。反式作用因子可被诱导合成,其活性也受多种因素的调节。反式作用因子在细胞中的数量很低,大约每个哺乳动物细胞中 10⁴ 左右。这些蛋白质识别特定的 8~15 个核苷酸序列,与 DNA 结合后,可以促进(正调控)或抑制(负调控)其邻近基因的转录。

反式作用因子具有三个基本特征:①一般具有三个功能结构域,包括 DNA 结合域、转录/抑制活性域和结合其他蛋白的结合域,它们是其发挥转录调控功能的必需结构,这些功能区含几十到几百个氨基酸;②能识别并结合基因调控区中的顺式作用元件;③对基因表达有正性和负性调控作用,即激活和阻遏基因的表达。

根据靶位点的特点反式作用因子可以分为4类:

  1. 通用反式作用因子,在一般细胞中普遍存在。通用转录因子是 RNA 聚合酶 Ⅱ 结合启动子时所必需的一组转录因子,所有的 mRNA 转录起始时通用。通用转录因子主要识别些 RNA 聚合酶 Ⅱ 启动子的核心成分 TATA 盒(如 TBP)、上游启动子成分 CAAT 盒(如 CTF/NF-1)、GC 盒(如 SPI),还可识别八聚体核苷酸的 Oct-1 等。
  2. 有的结合在增强子区或上游激活元件(upstream activation sequences,USAs),如甾体-受体复合物。USAs 是位于核心启动子上游的特异序列,控制转录起始的速率,是特异转录激活因子的结合位点。有的结合在沉默子并抑制特异转录,与增强子的主要区别是位于 TATA 盒下游时就没有功能。
  3. 辅助激活因子(coactivators),它们不与 DNA 结合,但是对于招募转录因子和转录起始复合物的组装是必不可少的。大多数转录因子并不与直接结合在核心启动子的通用转录因子相互作用,而是通过中间体辅助激活因子影响核心启动子的活性。辅助抑制因子(corepressors)介导抑制性反式作用因子的负性调控活性。
  4. 应答元件,如热休克应答元件(heat shock response element,HSE)、糖皮质激素应答元件(glucocorticoid response element,GRE)、金属应答元件(metal response element, MRE)、肿瘤诱导剂应答元件(tumorgenic agent response element,TRE)、血清应答元件(serum response element,SRE)等。应答元件为具有类似特点的一组基因共受二个转录因子调控的启动子或增强子元件,是启动子或增强子的上游元件,它们含有短的保守顺序。在不同的基因中应答元件拷贝数比较接近,但并不一定相同,离起始点的距离并不固定,一般位于上游小于 200bp 处,有的也可以位于启动子或增强子中。

真核生物的转录阻遏

一般来说,真核生物在转录水平的调控主要以正调控为主,而抑制作用主要通过控制染色质的结构实现。一些调节蛋白可作为转录抑制因子干扰 RNA 聚合酶和转录因子之间的相互作用,阻遏基因的表达。

真核生物的转录阻遏和原核生物类似,主要依赖于阻遏蛋白。这些阻遏蛋白的作用机理有以下几种:有些与特异的启动子元件结合以后,占据了激活蛋白的作用位点,阻止了转录前起始复合物的组装;有些作为转录因子或辅助激活因子的抑制蛋白,拮抗它们的转录激活功能;有些结合在启动子的下游,阻止 RNA 聚合酶的转录。因此,真核生物转录水平的调控对细胞活性的影响也是正调控和负调控平衡作用的结果。

实验显示,有的转录因子具有双重功能。例如,糖皮质激素受体,一方面与特异的 DNA 序列结合后可以激活类固醇激素相关基因的转录,另一方面也能够与另一个相关基因的 DNA 特异位点相结合,抑制其转录。

固醇类激素对基因转录的调控

激素对基因调控作用的轮廓是激素-受体-作用位点,三者缺一不可。固醇类激素受体成员包括雌激素受体、雄激素受体、视黄酸受体、糖皮质和盐皮质激素受体、甲状腺激素受体、维生素D 受体。固醇类激素受体属于核受体(nuclear receptor,NR)超家族的重要成员。目前核受体超家族已有 49 个基因和 75 个以上核受体蛋白。核受体为依赖配体的转录因子,对转录的调控涉及以下几个方面:① NR 与基因组内的特异性调节位点相结合;② 以配体依赖的方式招募共转录激活因子,修饰染色质及其相关蛋白;③ 调节 RNA 聚合酶矼在启动子的结合与功能;④ 终止或削弱 NR 依赖的信号转导。固醇类激素受体通过对基因转录的调控影响生长、增殖、分化等细胞生命活动的方方面面。

固醇类激素受体对基因转录的调控

固醇类受体蛋白常常先和配基结合被活化。脂溶性的固醇类激素可以通过自由扩散透过细胞膜,与细胞质中的受体特异性地结合。当固醇类受体与激素结合后,受体蛋白将发生结构变化而被激活,活化的激素-受体复合物进入核内,与特异的 DNA 相结合,启动靶基因的转录。靶基因上激素-受体复合物特异性结合的 DNA 序列,即激素应答元件 HRE,常常起到增强子的作用。

受体蛋白和配基结合后,形成二聚体。活化的激素-受体复合物本身并不能促进基因转录,它必须和其他转录因子协同作用才能促进转录。受核受体调节的基因,其启动子部位除有 HRE、TATA 盒外,还有多个其他转录因干的结合位点。

与相应激素结合后,糖皮质激素受体或孕激素受体与 HRE 结合促使染色质结构发生改声,其启动子部位出现 DNaseⅠ 高敏区。在染色质结构改变过程中,组蛋白乙酰化导致核小体解聚可能是一个关键步骤。染色质结构改变使染色质由非活性状态向活性状态转变,并允许 NF1 等转录因子结合到 DNA 上,可能也使 TFⅡD 易于结合到 TATA 盒上而形成稳定的转录起始前复合物,从而促进基因转录。

一些固醇类受体(如 TR)在配体缺失的情况下,可直接与 DNA 结合,招募负调控因子,通过去乙酰化等机制抑制转录基本装置的功能。糖皮质激素受体(GR)介导的负调控则需要糖皮质激素的作用,结合特定的负调控 GRE,通过对抗其他转录因子的活性,竟争性耗竭激活因子等机理来抑制转录活性。

转录后水平的调控

在真核细胞中,基因转录的最初产物称核内不均一 RNA,经过剪切、拼接、带帽和加尾等加工过程,才能形成成熟的 mRNA。具体操作过程可参考相关书籍。

基因

广义来讲,基因是 DNA 或 RNA 分子中有特定遗传功能的一段序列。基因主要位于染色体上,此外,细菌的质粒、真核生物的叶绿体、线粒体等细胞器都含有一定的 DNA 序列,其中大部分是具有遗传功能的基因,这些染色体外的 DNA 称为染色体外遗传物质。

1958 年,Crick 提出中心法则,认为 DNA 通过转录和翻译控制蛋白质的合成,从而将 DNA 双螺旋结构与其功能联系起来。1961 年, Jacob 和 Monod 提出操纵子学说,以及结构基因、调节基因、操纵基因等概念,并证实了 mRNA 携带着从 DNA 到蛋白质合成的所有与基因序列相似,但不能产生表达产物的假基因。 Sharp 和 Robert 发现了真核生物的多数基因的概念。

结构基因和调节基因结构基因

结构基因(structure gene)是指为蛋白质或 RNA 编码的基因,结构基因的突变可导致蛋白质或RNA二级结构的改变。结构基因的 5′-端非编码区(5′-untranslation region,5′-UTR)包括 RNA 聚合酶的识别和结构位点【被称做启动子(promoter)】,以及原核生物 mRNA 起始密码子上游的核糖体结合位点(ribosome binding site,RBS)【或 SD 序列(以发现者的名字命名)】。真核生物的 mRNA 不含 SD 序列,其 5′-端的帽子结构可以同核糖体相互识别。结构基因的 3′-非编码区(3′-UTR)包括促使转录终止的终止子(terminator)序列和真核生物的加尾信号等。调节基因(regulator gene)的功能是产生控制蛋白质,调控结构基因的表达。操纵基因(operator gene)的功能是与调控蛋白质结合,控制结构基因的表达。调节基因和操控基因的突变会影响一个或多个基因的表达活性。

基因家族

基因家族(gene family)是真核生物基因组中来源相同、结构相似、功能相关的一组基因。尽管基因家族各成员序列上具有相关性,但序列相似的程度以及组织方式不同。按照基因家族的成员在染色体上的分布,可以将基因家族分成两类:

一类是串联重复基因(tandemly repeated genes),还可称做成簇的基因家族(clustered gene family)或基因簇(gene cluster),是基因家族的各成员紧密成簇排列而成的串联重复单位,定位于染色体的特定区域。从分子进化的角度看,它们可能是同一个祖先基因扩增的产物。也有一些基因家族的成员在染色体上的排列并不十分紧密,中间包含一些间隔序列,但大多数分布在染色体上相对集中的区域。

另一类称作分散的基因家族(dispersed gene family),其家族成员在DNA上无明显的物理联系,甚至分散在多条染色体上,各成员在序列上有明显的差别。

假基因

在多基因家族中,有些成员的DNA序列和结构与有功能的基因相似,但不能表达产生有功能的基因产物,称假基因(pseudogene),常用符号表示 Ψ 中表示,如 Ψa1 表示与 a1 相似的假基因。许多假基因与亲本基因(parental gene)连锁,且编码区及侧翼序列都具有高度同源性。通过序列比对发现,这类假基因最初是有功能的,由于发生了缺失(deletion)、倒位(inversion)、点突变(point mutation)等,使该基因失去了活性,成为无功能的假基因。此外,在真核生物的染色体基因组中还存在着物类加工的假基因(processed pseudogene)。这类假基因不与亲本基因连锁,结构域转录物相似,如没有启动子和内含子,但在基因的3′-端有二段连续的腺嘌呤序列,类似 mRNA 3’-端的 poly A 尾巴。这些特征表明,这类假基因很可能是来自于加工后的 RNA ,称作加工的假基因。

假基因由于存在以下几个原因中的二个或几个,因而没有表达活性 :

  • 缺乏有功能的调控,使其不能进行正常的转录;
  • 虽然能转录,但由于突变或缺失等,引起 mRNA 加工缺陷而不能翻译;
  • mRNA 的翻译被提前终止;
  • 虽然能翻译,但生成的是无功能的肽链。

在真核生物基因组中,假基因的存在比较普遍,如 α-球蛋白和 β-球蛋白基因簇中都存在个能与真核基因序列进行分子杂交,但又没有正常功能的 DNA 区域。

重叠基因

传统的基因概念被看做彼此独立、非重叠的实体。但是,随着 DNA 测序技术的发展,在一些噬菌体和动物病毒中发现,不同基因的核苷酸序列有时是可以共用的。也就是说,它们的核苷酸序列是彼此重叠的。这种具有独立性但部分序列彼此重叠的基因称重叠基因(overlapping genes)或嵌套基因(nested genes)。近年来的研究发现,重叠基因在真核生物中是广泛存在的。值得注意的是,高等真核生物中既存在大量的非编码序列,又普遍存在重叠基因,其生物学意义目前所知甚少,有待于进一步深入研究。

移动基因

移动基因(movable genes)又称转座因子(transposable elements)。由于它可以从染色体的一个位置转移到另一个位置,甚至在不同染色体之间转移,因此也称跳跃基因(jumping genes)。

转座(transposition)和异位(translation)是两个不同的概念。易位是指染色体发生断裂后,通过连接而转移到另一条染色体上,转座则是在转座酶的作用下,转座因子或是直接从原来位置上切离下来,然后插人新的位置;或是染色体上的 DNA 序列转录成 RNA ,随后反转录为 cDNA ,再插人染色体上新的位置。转座因子本身既包含了基因,如编码转座酶的基因,同时又包含了非编码的 DNA 序列。

断裂基因

真核生物基因编码序列中间插有非编码的 DNA 间隔区,这些间隔区称为内含子(intron);而编码区则称为外显子(exon),含有内含子的基因称为不连续基因或断裂基因(split genes)。一个基因的两端起始和结束下外显子,对应于其转录产物 RNA 的 5′-端和 3′-端。如果一个基因具有 n 个内含子,则相应地具有 n+1 个外显子。

断裂基因是 Roberts 和 Sharp 于 1997 年在研究腺病毒六邻体外壳蛋白质的 mRNA 时首先发现的,病毒 DNA 与它的 mRNA 进行分子杂交时,在电镜下观察到未与 mRNA 配对的 DNA 形成多个突环,称 R 环。R 环的形成说明腺病毒外壳蛋白质的基因具有 mRNA 中不存在的序列,这些序列就是内含子,后来发现,鸡卵清蛋白质的基因与 mRNA 杂交也会出现与其内含子数对应的 7 个 R 环。

研究断裂基因的另一个方法是比较基因组 DNA 和 cDNA 的限制性核酸内切酶图谱。研究发现,断裂基因在表达时首先转录成初级转录产物,即前体 mRNA,然后经过后加工,除去内含子序列的转录物,成为成熟的 mRNA 分子。

真核细胞中普遍存在断裂基因,编码蛋白质的多数基因、 rRNA 和 tRNA 的基因都是不连续的,低等真核生物的线粒体和叶绿体中也有断裂基因。不过断裂基因在原核生物基因组中极为少见,目前只在古细菌和大肠杆菌的噬菌体中发现了断裂基因。

基因组

基因组(genome)指的是细胞或生物体全套染色体中所有的 DNA,包括所有的基因和基因之间的间隔序列。原核生物基因组就是其细胞内构成染色体的 DNA 分子,真核生物的核基因组是指单倍体细胞核内整套染色体所含有的 DNA 分下。除了核基因组以外,真核细胞内还有细胞器基因组,即动物细胞核基因组、植物细胞的线粒体基因组、植物细胞的叶绿体基因组。

真核生物单倍基因组所包含的全部 DNA 量是相对恒定的,称该物种的 C 值(C-value)。不同物种的C值差异很大,最小的支原体只有 10⁶ bp,而最大的如某些显花植物和两栖动物可达 10¹¹ bp。随着生物的进化,生物体的结构和功能越复杂,其 C 值就越大。

真核生物的 C 值与生物体复杂性之间对应关系的反常现象称 C 值悖理(C-value para-dox)。主要表现为:

C值不随生物的进化程度和复杂性增加,如人与牛的 C 值相近,约为 3.2×10⁹ bp;国关系密切的生物 C 值相差莫大,如豌豆为 14×10⁹ bp ,蚕豆为2×10⁹ bp,相差 7 倍;固真核生物 DNA 的量远远大于编码蛋白质等物质所需的量。根据简单的估算,哺乳动物基因组 DNA 的量大约是全部编码基因长度的几十倍。90% 以上的基因组 DNA ,其功能目前尚无令人信服的解释。