分子遗传学常用词汇(中、英文)
丁香园论坛
2653
分子遗传学常用词汇(中文)
腺嘌呤Adenine(A):一种碱基,和胸腺嘧啶T结合成碱基对。
等位基因(Alleles):同一个基因座位上的多种表现形式。一般控制同一个性状,比如眼睛的颜色等。
氨基酸(Amino Acid):共有20种氨基酸组成了生物体中所有的蛋白质。蛋白质的氨基酸序列和由遗传密码决定。
扩增(Amplification):对某种特定DNA片段拷贝数目增加的方法,有体内扩增和体外扩增两种。(参见克隆和PCR技术)
克隆矩阵(Arrayed Library):一些重要的重组体的克隆(以噬菌粒,YAC或者其他作载体),这些重组体放在试管中,排成一个二维矩阵。这种克隆矩阵有很多应用,比如筛选特定的基因和片段,以及物理图谱绘制等。从每种克隆得到的遗传连锁信息和物理图谱信息都输入到关系数据库中。
自显影技术(Autoradiography):使用X光片来显示使用放射性元素标记的DNA片段的位置,常用在使用凝胶将DNA片段按照片段大小分离之后,显示各个DNA片段的位置。
常染色体(Autosome):和性别决定无关的染色体。人是双倍体动物,每个体细胞中都含有46条染色体,其中22对是常染色体,一对是性染色体(XX或者XY)。
噬菌体(Bacteriophage):参见phage
碱基对(Base Pair,bp):两个碱基(A和T,或者C和G)之间靠氢键结合在一起,形成一个碱基对。DNA的两条链就是靠碱基对之间的氢键连接在一起,形成双螺旋结构。
碱基序列(Base sequence):DNA分子中碱基的排列顺序。
碱基序列分析(Base Sequence Analysis):分析出DNA分子中碱基序列的方法(这种方法有时能够全自动化)
cDNA:参见互补DNA
厘摩(cM):一种度量重组概率的单位。在生殖细胞形成的减数分裂过程中,常常会发生同源染色体之间的交叉现象,如果两个标记之间发生交叉的概率为1%,那么它们之间的距离就定义为1cM。对人类来说,1cM大致相当于1Mbp。
着丝点(Centromere):在细胞的有丝分裂过程中,从细胞的两端发出纺锤丝,连接在染色体的着丝点上,将染色体拉向细胞的两级。
染色体(Chromosome):细胞核中能够自我复制的部分,包含承载遗传信息的DNA分子。原核生物中只有一个呈环状的染色体;而真核生物中一般包含多个染色体,每条染色体都由DNA和蛋白质构成。
克隆库(Clone Bank):参见基因组文库(genomic library)。
克隆 (名词,Clones):从同一个亲代细胞形成的一组细胞。
克隆(动词,Cloning):形成大量子细胞的无性繁殖过程,这些子细胞和亲代细胞完全相同,这个过程称为克隆。
克隆载体(Cloning Vector):通常采用从病毒、质粒或高等生物细胞中获取的DNA作为克隆载体,在载体上插入合适大小的外源DNA片段,并注意不能破坏载体的自我复制性质。将重组后的载体引入到宿主细胞中,并在宿主细胞中大量繁殖。常见的载体有质粒,噬菌粒,酵母人工染色体。
互补DNA(cDNA):以信使RNA为模板合成的DNA,常常采用互补DNA的一条链作为绘制物理图谱时的探针。
互补序列(Complementary sequence):以一条核苷酸链为模板,根据碱基互补规则形成的互补链,称为该模板的互补序列。
保守序列(Conserved Sequence ):指DNA分子中的一个核苷酸片段或者蛋白质中的氨基酸片段,它们在进化过程中基本保持不变。
邻接图谱(Contig Map):邻接图谱描述覆盖了整个染色体的小片段的顺序关系,这些小片段相互邻接,两个片段通过有重叠部分推断出两者相互邻接。
邻接片段(Contigs):染色体片段的克隆,两个片段通过有重叠部分推断出两者相互邻接
噬菌粒(Cosmid):人工构造的含有Lambda抗菌素的cos基因的克隆载体。噬菌粒能够引入到???Lambda抗菌素微粒中,然后注入到大肠杆菌中去,这样我们就可以将长达45kb的DNA片段引入到宿主细菌的质粒载体中。
交叉(Crossing over):在减数分裂时,来自父本的染色体和来自母本的染色体有时会发生断裂,然后交换断裂部分重新组合成新的染色体,这种交叉常常会导致等位基因的交换。
胞嘧啶(Cytosine):碱基的一种,和鸟嘌呤结合成碱基对C-G。
双倍体(Diploid):一整套遗传物质中包含成对的染色体,一条来自父本,一条来自母本。大多数动物的细胞(配子细胞除外)都含有双倍体的染色体。
脱氧核糖核酸DNA :编码遗传信息的大分子。DNA是一种双链结构,两条链之间通过碱基对之间的氢键相互连接。相互配对的核苷酸之间有着严密的规则,因此我们能够通过一条链的顺序推断出另一条链的顺序。
DNA复制(replication):以现有DNA的一条链为模板合成一条新的链。在人类和其他真核生物细胞中,DNA的复制在细胞核中进行。
DNA序列(sequence):DNA片段、基因、染色体、基因组中的碱基排列顺序。
结构域(Domain):蛋白质中一个有着特定功能的独立单元。多个结构域共同构成蛋白质的功能。
双螺旋(Double Helix):DNA的两条链互相缠绕在一起,形成一种双螺旋结构。
大肠杆菌(E Coli):细菌的一种。遗传学家对大肠杆菌研究得比较透彻,大肠杆菌的染色体比较小,通常没有致病性,易于培养。
电泳技术(Electrophoresis):分离大分子的一种方法,能够从一堆混杂在一起的DNA或者蛋白质中依据各个片段的大小将它们分开。一般在介质两端加电压,介质一端设有小槽,槽内放有待分离的大分子溶液,在电场的作用下,大分子会从一端向另一端运动,但是由于自身的大小或分子量的不同,它们的泳动速度是不同的,因此我们可以根据它们的位置将它们分离开来。常用的介质有琼脂糖和聚丙稀酰胺。
内切核酸酶(Endonuclease):内切核酸酶能够在核酸底物的某个内部切点上切开。
酶(Enzyme):一种特殊的具有催化作用的蛋白质,它能够加快生化反应的速度,但是不改变反应的方向和产物。
真核生物(Eukaryote):细胞或生物自身有细胞膜包被,有结构独立的细胞核,以及发育完全的细胞器。除了病毒、细菌和蓝藻绿藻外,绝大多数生物都是真核生物。
外显子(Exons):基因中有编码蛋白质功能的部分。
外切酶(Exonclease):外切酶从DNA片段的自由端开始酶切。
荧光原位杂交(FISH:fluorescence in situ hybridization):荧光原位杂交方法是一种物理图谱绘制方法,使用荧光素标记探针,以检测探针和分裂中期的染色体或分裂间期的染色质的杂交。
流式细胞术:根据细胞或者染色体的光吸收性和光发射性对材料进行分析的方法。
配子(Gamete):成熟的雄性或雌性生殖细胞(精子或卵子),只有单倍体的染色体。
基因(Gene):遗传的基本结构和功能单位。基因是特定染色体上特定位置的一段核苷酸片段,能够编码特定功能的蛋白质。
基因表达(Gene Expression):基因编码的信息转化为细胞结构并在细胞中行使功能的过程。包括转录成信使RNA接着翻译成蛋白质的基因,以及转录成RNA但是不翻译成蛋白质的基因。
基因家族(Gene Families):一组关系紧密,表达产物相似的基因。
基因图谱(Gene Mapping):在一个DNA分子上决定基因的顺序及其相互间的距离。包括遗传图谱和物理图谱。
基因产物(Gene Product):基因表达过程中形成的RNA或蛋白质。基因表达产物的多少常用来衡量一个基因的表达活性,如果一个基因的表达产物异常减少的话,这种基因产物的数量异常常常预示着疾病基因的存在。
遗传密码(Genetic Code):信使RNA上每三个一组的核苷酸序列,决定了蛋白质肽链上的一个氨基酸。DNA上的碱基序列控制形成信使RNA上的核苷酸序列,进而决定了蛋白质肽链上的氨基酸序列。
遗传学(genetics):研究特定性状的遗传行为的科学。
基因组(Genome):一种生物所有染色体上的遗传物质,称为基因组,基因组的大小常常采用碱基对的数目来表示。
基因组计划(Genome Project):基因组计划的目标是绘制基因组的图谱,对基因组进行测序。
基因组文库(Genomic Library):对某个染色体,制备随机产生的、相互之间有重叠部分的片段的克隆。
鸟嘌呤(Guanine):碱基的一种,和胞嘧啶以氢键连接形成碱基对C-G.
单倍体(Haploid):单倍体细胞中只有一套染色体(是体细胞中的染色体数目的一半),比如动物的精子和卵子、植物的卵细胞和花粉都是单倍体细胞。
杂和体(Heterozygosity):同源染色体的某个位点上有不同的等位基因,这个细胞就称为杂和体。
Homeobox:很多基因中都会发现一些共同的碱基序列。对果蝇和人类的研究都发现了Homeobox的存在。在果蝇中存在一种Homeobox, 它能界定哪些基因在何时表达。。
同源性(Homologies):指同种类不同个体或者不同种类个体之间的,染色体或者蛋白质序列的相似性
同源染色体(Homologous Chromosome):一对染色体,分别来自父本和母本,染色体上有着相同的线性基因序列。
基因治疗(Human Gene Therapy):直接在细胞中引入正常的DNA以治疗遗传疾病的方法。
人类基因组行动计划:是自1986年美国能源部 领导的项目的总称。包括(1):建立某个染色体的DNA片段的顺序(2)开发分析基因图谱和测序的算法(3)开发DNA检测和分析的新设备。现在的名称是人类基因组计划。而整个美国的有关工作则称为人类基因组项目,由美国能源部和国立卫生研究院共同领导。
杂交(Hybridization):两段互补的DNA单链,或者一段DNA单链和一段RNA依照碱基互补规则形成一条双链的过程。
生物信息学(Informatics):使用计算机和统计方法作为工具,管理从试验中得到的大量信息。生物信息学包括:数据库搜索的快速算法,对DNA的分析方法,从DNA序列来预测蛋白质的序列和结构。
原位杂交(in situ hybridization):使用DNA或者RNA探针来检测与其互补的另一条链在细菌或其他真核细胞中的位置。
分裂间期(interphase):整个细胞周期中的一部分,在这个期间细胞完成染色体中DNA的复制和相关蛋白质的合成,染色体呈现出染色质的形态即长的细丝状。
内含子(Introns):基因中除了外显子,剩余的DNA序列就构成了内含子,内含子被转录成RNA,但是接着就被剪切掉,因此内含子不编码蛋白质。
体外(in vitro):在一个活体生物之外。比如DNA的体外复制,它不使用将外源DNA引入到宿主细胞内进行大量繁殖的方法。
染色体组型(Karyotype):描述一个生物体内所有染色体的大小、形状和数量信息的图象。这种组型技术可用来寻找染色体歧变同特定疾病的关系,比如:染色体数目的异常增加、形状发生异常变化等。
文库(library):从某条染色体上制取的DNA片段未经排序的克隆集合,克隆之间的顺序关系可以通过物理图谱来显示。
连锁关系(Linkage):两个标记之间的邻接关系。如果两个标记间距离比较近的话,那么在减数分裂发生交叉,两个标记被分离的概率就比较小。
连锁图谱(Linkage Map):染色体上两个遗传位点之间相对位置的关系。两个位点之间的距离依据它们共同遗传的概率来确定。
定位(Localize):确定一个基因或者标记在染色体上的原始位置。
位点(Locus:Loci as pl):染色体上一个基因或者标记的位置。位点有时特指DNA上有表达功能的部分。
酶切图谱(Macrorestriction Map):描述限制性内切酶的酶切点的位置和距离信息的图谱。
标记(Marker):染色体上一个可以被识别的区域(比如限制性内切酶的酶切点,基因的位置等)。标记的遗传能够被检测出来。标记可以是染色体上有表达功能的部分(比如基因),也可以是没有编码蛋白质功能但遗传特性能够被检测出来的部分。
减数分裂(Meiosis):精母细胞或卵母细胞的染色体只复制一次,但是两次连续的分裂,最终产生4个子细胞,每个子细胞的染色体数目减半。
信使RNA(MessengerRNA):携带遗传信息,在蛋白质合成时充当模板的RNA。
四分体时期(Metaphase):在有丝分裂和无丝分裂过程中,每条染色体经过复制都形成两条姐妹染色单体,这样两条同源染色体就包含4条染色单体,它们在纺锤丝的牵引下,排列在赤道板上。此时最适宜对染色体进行观察。
有丝分
Mult裂(Mitosis):细胞的一种繁殖方式,每个细胞都形成和亲代细胞两个完全相同的子细胞。iplexing:一种同时采用多种样品的测序方法,能够大大提高测序速度。
突变(Mutation):DNA序列上任一种可以被遗传的变易。
核苷酸(Nucleotide):DNA和RNA的基本组成部分,通常包含一分子核糖,一分子磷酸和一分子碱基。多个核苷酸通过磷酸二酯键连接成一条链状。
细胞核(Nucleos):真核细胞中的一种细胞器,内含遗传物质。
癌基因(Oncogene):一种能够导致癌症的基因。许多致癌基因都直接或间接地控制细胞的成长速度。
噬菌体(phage):一种以细菌为宿主细胞的病毒。
物理图谱(Physics Map):物理图谱描绘DNA上可以识别的标记的位置和相互之间的距离(以碱基对的数目为衡量单位),这些可以识别的标记包括限制性内切酶的酶切位点,基因等。物理图谱不考虑两个标记共同遗传的概率等信息。对于人类基因组来说,最粗的物理图谱是染色体的条带染色模式,最精细的图谱是测出DNA的完整碱基序列。
质粒(Plasmid):质粒是细菌的染色体外能够自我复制的环状DNA分子。它能够和细胞核中的染色体明显地区别开来,而且并不是细胞生存的必要物质。一些质粒适宜于引入到宿主细胞中去,并利用宿主细胞的DNA大量繁殖,因此我们常常采用质粒作为外源DNA的载体,外源DNA借助于质粒在宿主细胞中大量繁殖。
多基因病(Polygenic Disorder):有多个基因位点共同决定的遗传病(如心脏病、糖尿病、一些癌症等)。这类疾病的遗传由多个基因位点共同控制,因而比单基因病的遗传更为复杂。
多聚酶链式反应(PCR):一种体外扩增DNA的方法。PCR使用一种耐热的多聚酶,以及两个含有20个碱基的单链引物。经过高温变性将模板DNA分离成两条链,低温退火使得引物和一条模板单链结合,然后是中温延伸,反应液的游离核苷酸紧接着引物从5‘端到3’端合成一条互补的新链。而新合成的DNA又可以继续进行上述循环,因此DNA的数目不断倍增。
多聚酶(Polymerase):多聚酶具有催化作用,能够加快游离的核苷酸和DNA模板结合形成新链的反应速度。
多态性(Polymorphism):多个个体之间DNA的差异称为多态性。DNA变异概率超过1%的变异,比较适宜作为绘制连接图谱的证据。
引物(Primer):预先制备的比较短的核苷酸链,在新链合成过程中作为引物,游离的核苷酸在引物之后按顺序和模板上的碱基结合,形成新链。
原核生物(Prokaryote):原核生物没有细胞膜,结构清晰的核以及其他细胞器。细菌是原核生物。
探针(Probe):是一条DNA单链或者一条RNA链,具有特定的序列,并且使用放射性元素或者免疫特性物质进行标记。探针和克隆库中的某条互补片段结合成一条双链结构,我们可以借助于探针的检测来获知与其互补的链的位置。
启动子(Promoter):DNA上的一个特定位点,RNA聚合酶在此和DNA结合,并由此开始转录过程。
蛋白质(Protein):一种由一条或者多条肽链构成的大分子。每条肽链上核苷酸的顺序是由基因外显子部分的碱基序列决定的。蛋白质是细胞、组织和器官的重要组成部分,每种蛋白质都具有特定的功能。酶、抗体和激素等都是蛋白质。
嘌呤(Purine):一种含氮的单环结构物。是核苷酸的重要组成部分,有腺嘌呤A和鸟嘌呤G两种。
嘧啶(Pyrimidine):一种含氮的双环结构,是核苷酸的重要组成部分。分为胞嘧啶C,胸腺嘧啶T和尿嘧啶U三种。
重组克隆(Recombinant Clone):将不同来源的DNA片段合成在一个DNA分子中,这种技术称为重组,得到的分子为重组克隆。
DNA重组技术(Recombinant DNA Technology):在细胞体外将两个DNA片段连接成一个DNA分子的技术。在适宜的条件下,一个重组DNA分子能够被引入到宿主细胞中并在宿主细胞中大量繁殖。
调控序列(regulatory regions and sequence):一段控制基因表达的DNA片段。
限制性内切酶(Restriction enzyme, endonuclease):这种酶能够识别出DNA上特定的碱基序列,并在这个位点将DNA酶切。细菌中有400中限制性内切酶,能够识别出100中DNA序列。
酶切位点(Restriction Enzyme cutting site):DNA上一段碱基的特定序列,限制性内切酶能够识别出这个序列并在此将DNA酶切成两段。
限制性长度多态性(Restriction fragment length polymorphsm):从不同个体制备的DNA,使用同一种限制性内切酶酶切,切得的片段长度各不相同。酶切片段的长度可以作为物理图谱或者连接图谱中的标记子。通常是在酶切位点处发生突变而引发的。
核糖核酸RNA(Ribonucleic acid):从细胞的细胞核和细胞质部分分离出来的化学物质。在蛋白质合成和其他生化反应中起着重要作用,RNA的结构和DNA的结构类似,都是有核苷酸按照一定顺序排列成的长链。RNA可以分为信使RNA、转运RNA、核糖体RNA以及其他类型的RNA。
核糖体RNA(Ribonsomal RNA rRNA):存在于核糖体中的RNA。
核糖体(Ribonsome):细胞质中含有rRNA和相关蛋白质的细胞器,是蛋白质的合成场所。
序列位置标签(Sequence Tagged Site, STS):一段短的DNA序列(200-500个碱基对),这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR反应中可以检测处STS来,STS适宜于作为人类基因组的一种地标,据此可以判定DNA的方向和特定序列的相对位置。ETS是cDNA上的STS。
性染色体(Sex Chromosome):在人类细胞中是X或者Y染色体,性染色体决定了个体的性别。雌性细胞中含有两个X染色体,而雄性细胞中含有1个X染色体和1个Y染色体。
鸟枪法(Shotgun method):使用基因组中的随机产生的片段作为模板进行克隆的方法。
单基因病(Single Gene Disorder):一个基因的等位基因之间发生了突变造成的疾病。
体细胞(Somatic Cells):个体中除了生殖细胞及其母细胞之外的细胞,都是体细胞。
串联重复序列(Tandem repeat sequences):在染色体上一段序列的多次重复,称为串联重复序列。常用来作为物理图谱中的标记子。
端粒(Telomere):是染色体的末端部分,这一特殊结构区域对于线型染色体的结构和稳定起重要作用。
转录(Transcription):以某一DNA链为模板,按照碱基互补原则形成一条新的RNA链的过程,是基因表达的第一步。
转运RNA(tRNA):转运RNA具有特殊的结构,其一端包含3个特定的核苷酸序列,能和信使RNA上的密码子按照碱基配对原则进行结合。另一端则带有一个氨基酸。因此转运RNA能够同细胞质中游离的氨基酸结合并运到核糖体上,核糖体按mRNA上的遗传信息将氨基酸装配成蛋白质。
转化(Transformation):将外源DNA整合到某一细胞基因组中的过程。。
翻译(Translation):mRNA上携带的遗传信息指导蛋白质的合成过程,称为翻译。
病毒(Virus):一种不具备细胞结构的生物体。只能寄生在宿主细胞中才能生存。病毒一般包含核酸以及外壳蛋白,有些动物的病毒的外面也偶尔覆盖一层细胞膜。病毒进入宿主细胞之后,利用宿主的合成机制复制出大量的后代。。
酵母菌人工合成染色体(Yeast Artificial Chromosome):一种能够克隆长达400Kb的DNA片段的载体,含有酵母细胞中必需的端粒、着丝点和复制起始序列。
分子遗传学常用词汇(English)
Sequence
Raw sequence Individual unassembled sequence reads, produced by sequencing of clones containing DNA inserts.
Paired-end sequence Raw sequence obtained from both ends of a cloned insert in any vector, such as a plasmid or bacterial artificial chromosome.
Finished sequence Complete sequence of a clone or genome, with an accuracy of at least 99.99% and no gaps.
Coverage (or depth) The average number of times a nucleotide is represented by a high-quality base in a collection of random raw sequence. Operationally, a 'high-quality base' is defined as one with an accuracy of at least 99% (corresponding to a PHRED score of at least 20).
Full shotgun coverage The coverage in random raw sequence needed from a large-insert clone to ensure that it is ready for finishing; this varies among centres but is typically 8–10-fold. Clones with full shotgun coverage can usually be assembled with only a handful of gaps per 100 kb.
Half shotgun coverage Half the amount of full shotgun coverage (typically, 4–5-fold random coverage).
Clones
BAC clone Bacterial artificial chromosome vector carrying a genomic DNA insert, typically 100–200 kb. Most of the large-insert clones sequenced in the project were BAC clones.
Finished clone A large-insert clone that is entirely represented by finished sequence.
Full shotgun clone A large-insert clone for which full shotgun sequence has been produced.
Draft clone A large-insert clone for which roughly half-shotgun sequence has been produced. Operationally, the collection of draft clones produced by each centre was required to have an average coverage of fourfold for the entire set and a minimum coverage of threefold for each clone.
Predraft clone A large-insert clone for which some shotgun sequence is available, but which does not meet the standards for inclusion in the collection of draft clones.
Contigs and scaffolds
Contig The result of joining an overlapping collection of sequences or clones.
Scaffold The result of connecting contigs by linking information from paired-end reads from plasmids, paired-end reads from BACs, known messenger RNAs or other sources. The contigs in a scaffold are ordered and oriented with respect to one another.
Fingerprint clone contigs Contigs produced by joining clones inferred to overlap on the basis of their restriction digest fingerprints.
Sequenced-clone layout Assignment of sequenced clones to the physical map of fingerprint clone contigs.
Initial sequence contigs Contigs produced by merging overlapping sequence reads obtained from a single clone, in a process called sequence assembly.
Merged sequence contigs Contigs produced by taking the initial sequence contigs contained in overlapping clones and merging those found to overlap. These are also referred to simply as 'sequence contigs' where no confusion will result.
Sequence-contig scaffolds Scaffolds produced by connecting sequence contigs on the basis of linking information.
Sequenced-clone contigs Contigs produced by merging overlapping sequenced clones.
Sequenced-clone-contig scaffolds Scaffolds produced by joining sequenced-clone contigs on the basis of linking information.
Draft genome sequence The sequence produced by combining the information from the individual sequenced clones (by creating merged sequence contigs and then employing linking information to create scaffolds) and positioning the sequence along the physical map of the chromosomes.
N50 length A measure of the contig length (or scaffold length) containing a 'typical' nucleotide. Specifically, it is the maximum length L such that 50% of all nucleotides lie in contigs (or scaffolds) of size at least L.
Computer programs and databases
PHRED A widely used computer program that analyses raw sequence to produce a 'base call' with an associated 'quality score' for each position in the sequence. A PHRED quality score of X corresponds to an error probability of approximately 10-X/10. Thus, a PHRED quality score of 30 corresponds to 99.9% accuracy for the base call in the raw read.
PHRAP A widely used computer program that assembles raw sequence into sequence contigs and assigns to each position in the sequence an associated 'quality score', on the basis of the PHRED scores of the raw sequence reads. A PHRAP quality score of X corresponds to an error probability of approximately 10-X/10. Thus, a PHRAP quality score of 30 corresponds to 99.9% accuracy for a base in the assembled sequence.
GigAssembler A computer program developed during this project for merging the information from individual sequenced clones into a draft genome sequence.
Public sequence databases The three coordinated international sequence databases: GenBank, the EMBL data library and DDBJ.
Map features
STS Sequence tagged site, corresponding to a short (typically less than 500 bp) unique genomic locus for which a polymerase chain reaction assay has been developed.
EST Expressed sequence tag, obtained by performing a single raw sequence read from a random complementary DNA clone.
SSR Simple sequence repeat, a sequence consisting largely of a tandem repeat of a specific k-mer (such as (CA)15). Many SSRs are polymorphic and have been widely used in genetic mapping.
SNP Single nucleotide polymorphism, or a single nucleotide position in the genome sequence for which two or more alternative alleles are present at appreciable frequency (traditionally, at least 1%) in the human population.
Genetic map A genome map in which polymorphic loci are positioned relative to one another on the basis of the frequency with which they recombine during meiosis. The unit of distance is centimorgans (cM), denoting a 1% chance of recombination.
Radiation hybrid (RH) map A genome map in which STSs are positioned relative to one another on the basis of the frequency with which they are separated by radiation-induced breaks. The frequency is assayed by analysing a panel of human–hamster hybrid cell lines, each produced by lethally irradiating human cells and fusing them with recipient hamster cells such that each carries a collection of human chromosomal fragments. The unit of distance is centirays (cR), denoting a 1% chance of a break occuring between two loci.
腺嘌呤Adenine(A):一种碱基,和胸腺嘧啶T结合成碱基对。
等位基因(Alleles):同一个基因座位上的多种表现形式。一般控制同一个性状,比如眼睛的颜色等。
氨基酸(Amino Acid):共有20种氨基酸组成了生物体中所有的蛋白质。蛋白质的氨基酸序列和由遗传密码决定。
扩增(Amplification):对某种特定DNA片段拷贝数目增加的方法,有体内扩增和体外扩增两种。(参见克隆和PCR技术)
克隆矩阵(Arrayed Library):一些重要的重组体的克隆(以噬菌粒,YAC或者其他作载体),这些重组体放在试管中,排成一个二维矩阵。这种克隆矩阵有很多应用,比如筛选特定的基因和片段,以及物理图谱绘制等。从每种克隆得到的遗传连锁信息和物理图谱信息都输入到关系数据库中。
自显影技术(Autoradiography):使用X光片来显示使用放射性元素标记的DNA片段的位置,常用在使用凝胶将DNA片段按照片段大小分离之后,显示各个DNA片段的位置。
常染色体(Autosome):和性别决定无关的染色体。人是双倍体动物,每个体细胞中都含有46条染色体,其中22对是常染色体,一对是性染色体(XX或者XY)。
噬菌体(Bacteriophage):参见phage
碱基对(Base Pair,bp):两个碱基(A和T,或者C和G)之间靠氢键结合在一起,形成一个碱基对。DNA的两条链就是靠碱基对之间的氢键连接在一起,形成双螺旋结构。
碱基序列(Base sequence):DNA分子中碱基的排列顺序。
碱基序列分析(Base Sequence Analysis):分析出DNA分子中碱基序列的方法(这种方法有时能够全自动化)
cDNA:参见互补DNA
厘摩(cM):一种度量重组概率的单位。在生殖细胞形成的减数分裂过程中,常常会发生同源染色体之间的交叉现象,如果两个标记之间发生交叉的概率为1%,那么它们之间的距离就定义为1cM。对人类来说,1cM大致相当于1Mbp。
着丝点(Centromere):在细胞的有丝分裂过程中,从细胞的两端发出纺锤丝,连接在染色体的着丝点上,将染色体拉向细胞的两级。
染色体(Chromosome):细胞核中能够自我复制的部分,包含承载遗传信息的DNA分子。原核生物中只有一个呈环状的染色体;而真核生物中一般包含多个染色体,每条染色体都由DNA和蛋白质构成。
克隆库(Clone Bank):参见基因组文库(genomic library)。
克隆 (名词,Clones):从同一个亲代细胞形成的一组细胞。
克隆(动词,Cloning):形成大量子细胞的无性繁殖过程,这些子细胞和亲代细胞完全相同,这个过程称为克隆。
克隆载体(Cloning Vector):通常采用从病毒、质粒或高等生物细胞中获取的DNA作为克隆载体,在载体上插入合适大小的外源DNA片段,并注意不能破坏载体的自我复制性质。将重组后的载体引入到宿主细胞中,并在宿主细胞中大量繁殖。常见的载体有质粒,噬菌粒,酵母人工染色体。
互补DNA(cDNA):以信使RNA为模板合成的DNA,常常采用互补DNA的一条链作为绘制物理图谱时的探针。
互补序列(Complementary sequence):以一条核苷酸链为模板,根据碱基互补规则形成的互补链,称为该模板的互补序列。
保守序列(Conserved Sequence ):指DNA分子中的一个核苷酸片段或者蛋白质中的氨基酸片段,它们在进化过程中基本保持不变。
邻接图谱(Contig Map):邻接图谱描述覆盖了整个染色体的小片段的顺序关系,这些小片段相互邻接,两个片段通过有重叠部分推断出两者相互邻接。
邻接片段(Contigs):染色体片段的克隆,两个片段通过有重叠部分推断出两者相互邻接
噬菌粒(Cosmid):人工构造的含有Lambda抗菌素的cos基因的克隆载体。噬菌粒能够引入到???Lambda抗菌素微粒中,然后注入到大肠杆菌中去,这样我们就可以将长达45kb的DNA片段引入到宿主细菌的质粒载体中。
交叉(Crossing over):在减数分裂时,来自父本的染色体和来自母本的染色体有时会发生断裂,然后交换断裂部分重新组合成新的染色体,这种交叉常常会导致等位基因的交换。
胞嘧啶(Cytosine):碱基的一种,和鸟嘌呤结合成碱基对C-G。
双倍体(Diploid):一整套遗传物质中包含成对的染色体,一条来自父本,一条来自母本。大多数动物的细胞(配子细胞除外)都含有双倍体的染色体。
脱氧核糖核酸DNA :编码遗传信息的大分子。DNA是一种双链结构,两条链之间通过碱基对之间的氢键相互连接。相互配对的核苷酸之间有着严密的规则,因此我们能够通过一条链的顺序推断出另一条链的顺序。
DNA复制(replication):以现有DNA的一条链为模板合成一条新的链。在人类和其他真核生物细胞中,DNA的复制在细胞核中进行。
DNA序列(sequence):DNA片段、基因、染色体、基因组中的碱基排列顺序。
结构域(Domain):蛋白质中一个有着特定功能的独立单元。多个结构域共同构成蛋白质的功能。
双螺旋(Double Helix):DNA的两条链互相缠绕在一起,形成一种双螺旋结构。
大肠杆菌(E Coli):细菌的一种。遗传学家对大肠杆菌研究得比较透彻,大肠杆菌的染色体比较小,通常没有致病性,易于培养。
电泳技术(Electrophoresis):分离大分子的一种方法,能够从一堆混杂在一起的DNA或者蛋白质中依据各个片段的大小将它们分开。一般在介质两端加电压,介质一端设有小槽,槽内放有待分离的大分子溶液,在电场的作用下,大分子会从一端向另一端运动,但是由于自身的大小或分子量的不同,它们的泳动速度是不同的,因此我们可以根据它们的位置将它们分离开来。常用的介质有琼脂糖和聚丙稀酰胺。
内切核酸酶(Endonuclease):内切核酸酶能够在核酸底物的某个内部切点上切开。
酶(Enzyme):一种特殊的具有催化作用的蛋白质,它能够加快生化反应的速度,但是不改变反应的方向和产物。
真核生物(Eukaryote):细胞或生物自身有细胞膜包被,有结构独立的细胞核,以及发育完全的细胞器。除了病毒、细菌和蓝藻绿藻外,绝大多数生物都是真核生物。
外显子(Exons):基因中有编码蛋白质功能的部分。
外切酶(Exonclease):外切酶从DNA片段的自由端开始酶切。
荧光原位杂交(FISH:fluorescence in situ hybridization):荧光原位杂交方法是一种物理图谱绘制方法,使用荧光素标记探针,以检测探针和分裂中期的染色体或分裂间期的染色质的杂交。
流式细胞术:根据细胞或者染色体的光吸收性和光发射性对材料进行分析的方法。
配子(Gamete):成熟的雄性或雌性生殖细胞(精子或卵子),只有单倍体的染色体。
基因(Gene):遗传的基本结构和功能单位。基因是特定染色体上特定位置的一段核苷酸片段,能够编码特定功能的蛋白质。
基因表达(Gene Expression):基因编码的信息转化为细胞结构并在细胞中行使功能的过程。包括转录成信使RNA接着翻译成蛋白质的基因,以及转录成RNA但是不翻译成蛋白质的基因。
基因家族(Gene Families):一组关系紧密,表达产物相似的基因。
基因图谱(Gene Mapping):在一个DNA分子上决定基因的顺序及其相互间的距离。包括遗传图谱和物理图谱。
基因产物(Gene Product):基因表达过程中形成的RNA或蛋白质。基因表达产物的多少常用来衡量一个基因的表达活性,如果一个基因的表达产物异常减少的话,这种基因产物的数量异常常常预示着疾病基因的存在。
遗传密码(Genetic Code):信使RNA上每三个一组的核苷酸序列,决定了蛋白质肽链上的一个氨基酸。DNA上的碱基序列控制形成信使RNA上的核苷酸序列,进而决定了蛋白质肽链上的氨基酸序列。
遗传学(genetics):研究特定性状的遗传行为的科学。
基因组(Genome):一种生物所有染色体上的遗传物质,称为基因组,基因组的大小常常采用碱基对的数目来表示。
基因组计划(Genome Project):基因组计划的目标是绘制基因组的图谱,对基因组进行测序。
基因组文库(Genomic Library):对某个染色体,制备随机产生的、相互之间有重叠部分的片段的克隆。
鸟嘌呤(Guanine):碱基的一种,和胞嘧啶以氢键连接形成碱基对C-G.
单倍体(Haploid):单倍体细胞中只有一套染色体(是体细胞中的染色体数目的一半),比如动物的精子和卵子、植物的卵细胞和花粉都是单倍体细胞。
杂和体(Heterozygosity):同源染色体的某个位点上有不同的等位基因,这个细胞就称为杂和体。
Homeobox:很多基因中都会发现一些共同的碱基序列。对果蝇和人类的研究都发现了Homeobox的存在。在果蝇中存在一种Homeobox, 它能界定哪些基因在何时表达。。
同源性(Homologies):指同种类不同个体或者不同种类个体之间的,染色体或者蛋白质序列的相似性
同源染色体(Homologous Chromosome):一对染色体,分别来自父本和母本,染色体上有着相同的线性基因序列。
基因治疗(Human Gene Therapy):直接在细胞中引入正常的DNA以治疗遗传疾病的方法。
人类基因组行动计划:是自1986年美国能源部 领导的项目的总称。包括(1):建立某个染色体的DNA片段的顺序(2)开发分析基因图谱和测序的算法(3)开发DNA检测和分析的新设备。现在的名称是人类基因组计划。而整个美国的有关工作则称为人类基因组项目,由美国能源部和国立卫生研究院共同领导。
杂交(Hybridization):两段互补的DNA单链,或者一段DNA单链和一段RNA依照碱基互补规则形成一条双链的过程。
生物信息学(Informatics):使用计算机和统计方法作为工具,管理从试验中得到的大量信息。生物信息学包括:数据库搜索的快速算法,对DNA的分析方法,从DNA序列来预测蛋白质的序列和结构。
原位杂交(in situ hybridization):使用DNA或者RNA探针来检测与其互补的另一条链在细菌或其他真核细胞中的位置。
分裂间期(interphase):整个细胞周期中的一部分,在这个期间细胞完成染色体中DNA的复制和相关蛋白质的合成,染色体呈现出染色质的形态即长的细丝状。
内含子(Introns):基因中除了外显子,剩余的DNA序列就构成了内含子,内含子被转录成RNA,但是接着就被剪切掉,因此内含子不编码蛋白质。
体外(in vitro):在一个活体生物之外。比如DNA的体外复制,它不使用将外源DNA引入到宿主细胞内进行大量繁殖的方法。
染色体组型(Karyotype):描述一个生物体内所有染色体的大小、形状和数量信息的图象。这种组型技术可用来寻找染色体歧变同特定疾病的关系,比如:染色体数目的异常增加、形状发生异常变化等。
文库(library):从某条染色体上制取的DNA片段未经排序的克隆集合,克隆之间的顺序关系可以通过物理图谱来显示。
连锁关系(Linkage):两个标记之间的邻接关系。如果两个标记间距离比较近的话,那么在减数分裂发生交叉,两个标记被分离的概率就比较小。
连锁图谱(Linkage Map):染色体上两个遗传位点之间相对位置的关系。两个位点之间的距离依据它们共同遗传的概率来确定。
定位(Localize):确定一个基因或者标记在染色体上的原始位置。
位点(Locus:Loci as pl):染色体上一个基因或者标记的位置。位点有时特指DNA上有表达功能的部分。
酶切图谱(Macrorestriction Map):描述限制性内切酶的酶切点的位置和距离信息的图谱。
标记(Marker):染色体上一个可以被识别的区域(比如限制性内切酶的酶切点,基因的位置等)。标记的遗传能够被检测出来。标记可以是染色体上有表达功能的部分(比如基因),也可以是没有编码蛋白质功能但遗传特性能够被检测出来的部分。
减数分裂(Meiosis):精母细胞或卵母细胞的染色体只复制一次,但是两次连续的分裂,最终产生4个子细胞,每个子细胞的染色体数目减半。
信使RNA(MessengerRNA):携带遗传信息,在蛋白质合成时充当模板的RNA。
四分体时期(Metaphase):在有丝分裂和无丝分裂过程中,每条染色体经过复制都形成两条姐妹染色单体,这样两条同源染色体就包含4条染色单体,它们在纺锤丝的牵引下,排列在赤道板上。此时最适宜对染色体进行观察。
有丝分
Mult裂(Mitosis):细胞的一种繁殖方式,每个细胞都形成和亲代细胞两个完全相同的子细胞。iplexing:一种同时采用多种样品的测序方法,能够大大提高测序速度。
突变(Mutation):DNA序列上任一种可以被遗传的变易。
核苷酸(Nucleotide):DNA和RNA的基本组成部分,通常包含一分子核糖,一分子磷酸和一分子碱基。多个核苷酸通过磷酸二酯键连接成一条链状。
细胞核(Nucleos):真核细胞中的一种细胞器,内含遗传物质。
癌基因(Oncogene):一种能够导致癌症的基因。许多致癌基因都直接或间接地控制细胞的成长速度。
噬菌体(phage):一种以细菌为宿主细胞的病毒。
物理图谱(Physics Map):物理图谱描绘DNA上可以识别的标记的位置和相互之间的距离(以碱基对的数目为衡量单位),这些可以识别的标记包括限制性内切酶的酶切位点,基因等。物理图谱不考虑两个标记共同遗传的概率等信息。对于人类基因组来说,最粗的物理图谱是染色体的条带染色模式,最精细的图谱是测出DNA的完整碱基序列。
质粒(Plasmid):质粒是细菌的染色体外能够自我复制的环状DNA分子。它能够和细胞核中的染色体明显地区别开来,而且并不是细胞生存的必要物质。一些质粒适宜于引入到宿主细胞中去,并利用宿主细胞的DNA大量繁殖,因此我们常常采用质粒作为外源DNA的载体,外源DNA借助于质粒在宿主细胞中大量繁殖。
多基因病(Polygenic Disorder):有多个基因位点共同决定的遗传病(如心脏病、糖尿病、一些癌症等)。这类疾病的遗传由多个基因位点共同控制,因而比单基因病的遗传更为复杂。
多聚酶链式反应(PCR):一种体外扩增DNA的方法。PCR使用一种耐热的多聚酶,以及两个含有20个碱基的单链引物。经过高温变性将模板DNA分离成两条链,低温退火使得引物和一条模板单链结合,然后是中温延伸,反应液的游离核苷酸紧接着引物从5‘端到3’端合成一条互补的新链。而新合成的DNA又可以继续进行上述循环,因此DNA的数目不断倍增。
多聚酶(Polymerase):多聚酶具有催化作用,能够加快游离的核苷酸和DNA模板结合形成新链的反应速度。
多态性(Polymorphism):多个个体之间DNA的差异称为多态性。DNA变异概率超过1%的变异,比较适宜作为绘制连接图谱的证据。
引物(Primer):预先制备的比较短的核苷酸链,在新链合成过程中作为引物,游离的核苷酸在引物之后按顺序和模板上的碱基结合,形成新链。
原核生物(Prokaryote):原核生物没有细胞膜,结构清晰的核以及其他细胞器。细菌是原核生物。
探针(Probe):是一条DNA单链或者一条RNA链,具有特定的序列,并且使用放射性元素或者免疫特性物质进行标记。探针和克隆库中的某条互补片段结合成一条双链结构,我们可以借助于探针的检测来获知与其互补的链的位置。
启动子(Promoter):DNA上的一个特定位点,RNA聚合酶在此和DNA结合,并由此开始转录过程。
蛋白质(Protein):一种由一条或者多条肽链构成的大分子。每条肽链上核苷酸的顺序是由基因外显子部分的碱基序列决定的。蛋白质是细胞、组织和器官的重要组成部分,每种蛋白质都具有特定的功能。酶、抗体和激素等都是蛋白质。
嘌呤(Purine):一种含氮的单环结构物。是核苷酸的重要组成部分,有腺嘌呤A和鸟嘌呤G两种。
嘧啶(Pyrimidine):一种含氮的双环结构,是核苷酸的重要组成部分。分为胞嘧啶C,胸腺嘧啶T和尿嘧啶U三种。
重组克隆(Recombinant Clone):将不同来源的DNA片段合成在一个DNA分子中,这种技术称为重组,得到的分子为重组克隆。
DNA重组技术(Recombinant DNA Technology):在细胞体外将两个DNA片段连接成一个DNA分子的技术。在适宜的条件下,一个重组DNA分子能够被引入到宿主细胞中并在宿主细胞中大量繁殖。
调控序列(regulatory regions and sequence):一段控制基因表达的DNA片段。
限制性内切酶(Restriction enzyme, endonuclease):这种酶能够识别出DNA上特定的碱基序列,并在这个位点将DNA酶切。细菌中有400中限制性内切酶,能够识别出100中DNA序列。
酶切位点(Restriction Enzyme cutting site):DNA上一段碱基的特定序列,限制性内切酶能够识别出这个序列并在此将DNA酶切成两段。
限制性长度多态性(Restriction fragment length polymorphsm):从不同个体制备的DNA,使用同一种限制性内切酶酶切,切得的片段长度各不相同。酶切片段的长度可以作为物理图谱或者连接图谱中的标记子。通常是在酶切位点处发生突变而引发的。
核糖核酸RNA(Ribonucleic acid):从细胞的细胞核和细胞质部分分离出来的化学物质。在蛋白质合成和其他生化反应中起着重要作用,RNA的结构和DNA的结构类似,都是有核苷酸按照一定顺序排列成的长链。RNA可以分为信使RNA、转运RNA、核糖体RNA以及其他类型的RNA。
核糖体RNA(Ribonsomal RNA rRNA):存在于核糖体中的RNA。
核糖体(Ribonsome):细胞质中含有rRNA和相关蛋白质的细胞器,是蛋白质的合成场所。
序列位置标签(Sequence Tagged Site, STS):一段短的DNA序列(200-500个碱基对),这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR反应中可以检测处STS来,STS适宜于作为人类基因组的一种地标,据此可以判定DNA的方向和特定序列的相对位置。ETS是cDNA上的STS。
性染色体(Sex Chromosome):在人类细胞中是X或者Y染色体,性染色体决定了个体的性别。雌性细胞中含有两个X染色体,而雄性细胞中含有1个X染色体和1个Y染色体。
鸟枪法(Shotgun method):使用基因组中的随机产生的片段作为模板进行克隆的方法。
单基因病(Single Gene Disorder):一个基因的等位基因之间发生了突变造成的疾病。
体细胞(Somatic Cells):个体中除了生殖细胞及其母细胞之外的细胞,都是体细胞。
串联重复序列(Tandem repeat sequences):在染色体上一段序列的多次重复,称为串联重复序列。常用来作为物理图谱中的标记子。
端粒(Telomere):是染色体的末端部分,这一特殊结构区域对于线型染色体的结构和稳定起重要作用。
转录(Transcription):以某一DNA链为模板,按照碱基互补原则形成一条新的RNA链的过程,是基因表达的第一步。
转运RNA(tRNA):转运RNA具有特殊的结构,其一端包含3个特定的核苷酸序列,能和信使RNA上的密码子按照碱基配对原则进行结合。另一端则带有一个氨基酸。因此转运RNA能够同细胞质中游离的氨基酸结合并运到核糖体上,核糖体按mRNA上的遗传信息将氨基酸装配成蛋白质。
转化(Transformation):将外源DNA整合到某一细胞基因组中的过程。。
翻译(Translation):mRNA上携带的遗传信息指导蛋白质的合成过程,称为翻译。
病毒(Virus):一种不具备细胞结构的生物体。只能寄生在宿主细胞中才能生存。病毒一般包含核酸以及外壳蛋白,有些动物的病毒的外面也偶尔覆盖一层细胞膜。病毒进入宿主细胞之后,利用宿主的合成机制复制出大量的后代。。
酵母菌人工合成染色体(Yeast Artificial Chromosome):一种能够克隆长达400Kb的DNA片段的载体,含有酵母细胞中必需的端粒、着丝点和复制起始序列。
分子遗传学常用词汇(English)
Sequence
Raw sequence Individual unassembled sequence reads, produced by sequencing of clones containing DNA inserts.
Paired-end sequence Raw sequence obtained from both ends of a cloned insert in any vector, such as a plasmid or bacterial artificial chromosome.
Finished sequence Complete sequence of a clone or genome, with an accuracy of at least 99.99% and no gaps.
Coverage (or depth) The average number of times a nucleotide is represented by a high-quality base in a collection of random raw sequence. Operationally, a 'high-quality base' is defined as one with an accuracy of at least 99% (corresponding to a PHRED score of at least 20).
Full shotgun coverage The coverage in random raw sequence needed from a large-insert clone to ensure that it is ready for finishing; this varies among centres but is typically 8–10-fold. Clones with full shotgun coverage can usually be assembled with only a handful of gaps per 100 kb.
Half shotgun coverage Half the amount of full shotgun coverage (typically, 4–5-fold random coverage).
Clones
BAC clone Bacterial artificial chromosome vector carrying a genomic DNA insert, typically 100–200 kb. Most of the large-insert clones sequenced in the project were BAC clones.
Finished clone A large-insert clone that is entirely represented by finished sequence.
Full shotgun clone A large-insert clone for which full shotgun sequence has been produced.
Draft clone A large-insert clone for which roughly half-shotgun sequence has been produced. Operationally, the collection of draft clones produced by each centre was required to have an average coverage of fourfold for the entire set and a minimum coverage of threefold for each clone.
Predraft clone A large-insert clone for which some shotgun sequence is available, but which does not meet the standards for inclusion in the collection of draft clones.
Contigs and scaffolds
Contig The result of joining an overlapping collection of sequences or clones.
Scaffold The result of connecting contigs by linking information from paired-end reads from plasmids, paired-end reads from BACs, known messenger RNAs or other sources. The contigs in a scaffold are ordered and oriented with respect to one another.
Fingerprint clone contigs Contigs produced by joining clones inferred to overlap on the basis of their restriction digest fingerprints.
Sequenced-clone layout Assignment of sequenced clones to the physical map of fingerprint clone contigs.
Initial sequence contigs Contigs produced by merging overlapping sequence reads obtained from a single clone, in a process called sequence assembly.
Merged sequence contigs Contigs produced by taking the initial sequence contigs contained in overlapping clones and merging those found to overlap. These are also referred to simply as 'sequence contigs' where no confusion will result.
Sequence-contig scaffolds Scaffolds produced by connecting sequence contigs on the basis of linking information.
Sequenced-clone contigs Contigs produced by merging overlapping sequenced clones.
Sequenced-clone-contig scaffolds Scaffolds produced by joining sequenced-clone contigs on the basis of linking information.
Draft genome sequence The sequence produced by combining the information from the individual sequenced clones (by creating merged sequence contigs and then employing linking information to create scaffolds) and positioning the sequence along the physical map of the chromosomes.
N50 length A measure of the contig length (or scaffold length) containing a 'typical' nucleotide. Specifically, it is the maximum length L such that 50% of all nucleotides lie in contigs (or scaffolds) of size at least L.
Computer programs and databases
PHRED A widely used computer program that analyses raw sequence to produce a 'base call' with an associated 'quality score' for each position in the sequence. A PHRED quality score of X corresponds to an error probability of approximately 10-X/10. Thus, a PHRED quality score of 30 corresponds to 99.9% accuracy for the base call in the raw read.
PHRAP A widely used computer program that assembles raw sequence into sequence contigs and assigns to each position in the sequence an associated 'quality score', on the basis of the PHRED scores of the raw sequence reads. A PHRAP quality score of X corresponds to an error probability of approximately 10-X/10. Thus, a PHRAP quality score of 30 corresponds to 99.9% accuracy for a base in the assembled sequence.
GigAssembler A computer program developed during this project for merging the information from individual sequenced clones into a draft genome sequence.
Public sequence databases The three coordinated international sequence databases: GenBank, the EMBL data library and DDBJ.
Map features
STS Sequence tagged site, corresponding to a short (typically less than 500 bp) unique genomic locus for which a polymerase chain reaction assay has been developed.
EST Expressed sequence tag, obtained by performing a single raw sequence read from a random complementary DNA clone.
SSR Simple sequence repeat, a sequence consisting largely of a tandem repeat of a specific k-mer (such as (CA)15). Many SSRs are polymorphic and have been widely used in genetic mapping.
SNP Single nucleotide polymorphism, or a single nucleotide position in the genome sequence for which two or more alternative alleles are present at appreciable frequency (traditionally, at least 1%) in the human population.
Genetic map A genome map in which polymorphic loci are positioned relative to one another on the basis of the frequency with which they recombine during meiosis. The unit of distance is centimorgans (cM), denoting a 1% chance of recombination.
Radiation hybrid (RH) map A genome map in which STSs are positioned relative to one another on the basis of the frequency with which they are separated by radiation-induced breaks. The frequency is assayed by analysing a panel of human–hamster hybrid cell lines, each produced by lethally irradiating human cells and fusing them with recipient hamster cells such that each carries a collection of human chromosomal fragments. The unit of distance is centirays (cR), denoting a 1% chance of a break occuring between two loci.