基因

广义来讲,基因是 DNA 或 RNA 分子中有特定遗传功能的一段序列。基因主要位于染色体上,此外,细菌的质粒、真核生物的叶绿体、线粒体等细胞器都含有一定的 DNA 序列,其中大部分是具有遗传功能的基因,这些染色体外的 DNA 称为染色体外遗传物质。

1958 年,Crick 提出中心法则,认为 DNA 通过转录和翻译控制蛋白质的合成,从而将 DNA 双螺旋结构与其功能联系起来。1961 年, Jacob 和 Monod 提出操纵子学说,以及结构基因、调节基因、操纵基因等概念,并证实了 mRNA 携带着从 DNA 到蛋白质合成的所有与基因序列相似,但不能产生表达产物的假基因。 Sharp 和 Robert 发现了真核生物的多数基因的概念。

结构基因和调节基因结构基因

结构基因(structure gene)是指为蛋白质或 RNA 编码的基因,结构基因的突变可导致蛋白质或RNA二级结构的改变。结构基因的 5′-端非编码区(5′-untranslation region,5′-UTR)包括 RNA 聚合酶的识别和结构位点【被称做启动子(promoter)】,以及原核生物 mRNA 起始密码子上游的核糖体结合位点(ribosome binding site,RBS)【或 SD 序列(以发现者的名字命名)】。真核生物的 mRNA 不含 SD 序列,其 5′-端的帽子结构可以同核糖体相互识别。结构基因的 3′-非编码区(3′-UTR)包括促使转录终止的终止子(terminator)序列和真核生物的加尾信号等。调节基因(regulator gene)的功能是产生控制蛋白质,调控结构基因的表达。操纵基因(operator gene)的功能是与调控蛋白质结合,控制结构基因的表达。调节基因和操控基因的突变会影响一个或多个基因的表达活性。

基因家族

基因家族(gene family)是真核生物基因组中来源相同、结构相似、功能相关的一组基因。尽管基因家族各成员序列上具有相关性,但序列相似的程度以及组织方式不同。按照基因家族的成员在染色体上的分布,可以将基因家族分成两类:

一类是串联重复基因(tandemly repeated genes),还可称做成簇的基因家族(clustered gene family)或基因簇(gene cluster),是基因家族的各成员紧密成簇排列而成的串联重复单位,定位于染色体的特定区域。从分子进化的角度看,它们可能是同一个祖先基因扩增的产物。也有一些基因家族的成员在染色体上的排列并不十分紧密,中间包含一些间隔序列,但大多数分布在染色体上相对集中的区域。

另一类称作分散的基因家族(dispersed gene family),其家族成员在DNA上无明显的物理联系,甚至分散在多条染色体上,各成员在序列上有明显的差别。

假基因

在多基因家族中,有些成员的DNA序列和结构与有功能的基因相似,但不能表达产生有功能的基因产物,称假基因(pseudogene),常用符号表示 Ψ 中表示,如 Ψa1 表示与 a1 相似的假基因。许多假基因与亲本基因(parental gene)连锁,且编码区及侧翼序列都具有高度同源性。通过序列比对发现,这类假基因最初是有功能的,由于发生了缺失(deletion)、倒位(inversion)、点突变(point mutation)等,使该基因失去了活性,成为无功能的假基因。此外,在真核生物的染色体基因组中还存在着物类加工的假基因(processed pseudogene)。这类假基因不与亲本基因连锁,结构域转录物相似,如没有启动子和内含子,但在基因的3′-端有二段连续的腺嘌呤序列,类似 mRNA 3’-端的 poly A 尾巴。这些特征表明,这类假基因很可能是来自于加工后的 RNA ,称作加工的假基因。

假基因由于存在以下几个原因中的二个或几个,因而没有表达活性 :

  • 缺乏有功能的调控,使其不能进行正常的转录;
  • 虽然能转录,但由于突变或缺失等,引起 mRNA 加工缺陷而不能翻译;
  • mRNA 的翻译被提前终止;
  • 虽然能翻译,但生成的是无功能的肽链。

在真核生物基因组中,假基因的存在比较普遍,如 α-球蛋白和 β-球蛋白基因簇中都存在个能与真核基因序列进行分子杂交,但又没有正常功能的 DNA 区域。

重叠基因

传统的基因概念被看做彼此独立、非重叠的实体。但是,随着 DNA 测序技术的发展,在一些噬菌体和动物病毒中发现,不同基因的核苷酸序列有时是可以共用的。也就是说,它们的核苷酸序列是彼此重叠的。这种具有独立性但部分序列彼此重叠的基因称重叠基因(overlapping genes)或嵌套基因(nested genes)。近年来的研究发现,重叠基因在真核生物中是广泛存在的。值得注意的是,高等真核生物中既存在大量的非编码序列,又普遍存在重叠基因,其生物学意义目前所知甚少,有待于进一步深入研究。

移动基因

移动基因(movable genes)又称转座因子(transposable elements)。由于它可以从染色体的一个位置转移到另一个位置,甚至在不同染色体之间转移,因此也称跳跃基因(jumping genes)。

转座(transposition)和异位(translation)是两个不同的概念。易位是指染色体发生断裂后,通过连接而转移到另一条染色体上,转座则是在转座酶的作用下,转座因子或是直接从原来位置上切离下来,然后插人新的位置;或是染色体上的 DNA 序列转录成 RNA ,随后反转录为 cDNA ,再插人染色体上新的位置。转座因子本身既包含了基因,如编码转座酶的基因,同时又包含了非编码的 DNA 序列。

断裂基因

真核生物基因编码序列中间插有非编码的 DNA 间隔区,这些间隔区称为内含子(intron);而编码区则称为外显子(exon),含有内含子的基因称为不连续基因或断裂基因(split genes)。一个基因的两端起始和结束下外显子,对应于其转录产物 RNA 的 5′-端和 3′-端。如果一个基因具有 n 个内含子,则相应地具有 n+1 个外显子。

断裂基因是 Roberts 和 Sharp 于 1997 年在研究腺病毒六邻体外壳蛋白质的 mRNA 时首先发现的,病毒 DNA 与它的 mRNA 进行分子杂交时,在电镜下观察到未与 mRNA 配对的 DNA 形成多个突环,称 R 环。R 环的形成说明腺病毒外壳蛋白质的基因具有 mRNA 中不存在的序列,这些序列就是内含子,后来发现,鸡卵清蛋白质的基因与 mRNA 杂交也会出现与其内含子数对应的 7 个 R 环。

研究断裂基因的另一个方法是比较基因组 DNA 和 cDNA 的限制性核酸内切酶图谱。研究发现,断裂基因在表达时首先转录成初级转录产物,即前体 mRNA,然后经过后加工,除去内含子序列的转录物,成为成熟的 mRNA 分子。

真核细胞中普遍存在断裂基因,编码蛋白质的多数基因、 rRNA 和 tRNA 的基因都是不连续的,低等真核生物的线粒体和叶绿体中也有断裂基因。不过断裂基因在原核生物基因组中极为少见,目前只在古细菌和大肠杆菌的噬菌体中发现了断裂基因。

基因组

基因组(genome)指的是细胞或生物体全套染色体中所有的 DNA,包括所有的基因和基因之间的间隔序列。原核生物基因组就是其细胞内构成染色体的 DNA 分子,真核生物的核基因组是指单倍体细胞核内整套染色体所含有的 DNA 分下。除了核基因组以外,真核细胞内还有细胞器基因组,即动物细胞核基因组、植物细胞的线粒体基因组、植物细胞的叶绿体基因组。

真核生物单倍基因组所包含的全部 DNA 量是相对恒定的,称该物种的 C 值(C-value)。不同物种的C值差异很大,最小的支原体只有 10⁶ bp,而最大的如某些显花植物和两栖动物可达 10¹¹ bp。随着生物的进化,生物体的结构和功能越复杂,其 C 值就越大。

真核生物的 C 值与生物体复杂性之间对应关系的反常现象称 C 值悖理(C-value para-dox)。主要表现为:

C值不随生物的进化程度和复杂性增加,如人与牛的 C 值相近,约为 3.2×10⁹ bp;国关系密切的生物 C 值相差莫大,如豌豆为 14×10⁹ bp ,蚕豆为2×10⁹ bp,相差 7 倍;固真核生物 DNA 的量远远大于编码蛋白质等物质所需的量。根据简单的估算,哺乳动物基因组 DNA 的量大约是全部编码基因长度的几十倍。90% 以上的基因组 DNA ,其功能目前尚无令人信服的解释。