【转帖】人类基因命名的规则和过程
丁香园论坛
2943
信息来源:中华基因网 更新时间:2004-6-15 19:01:00
杨泉胜, 杨岐生
(浙江大学玉泉校区生物系, 杭州310027)
关键词:人类基因;命名;GDB/HUGO
1. 概述
如今, 至少已有10000多条人类基因被发现, 而且每天约有9条新基因登录。在下一个10年中, 人类的所有基因将被发现。这些基因的命名往往在它的结构功能阐明以前就要进行, 因此如果要求基因的命名能表明其功能就不可能。而且, 当一个基因的功能已相当清楚时, 一些习用的命名仍在使用, 这就容易引起误解。白介素转化酶相关蛋白酶就是一个典型的例子。按命名者的偏好, 这个酶曾被使用过FILCE、MACH、Mch5、ICErelⅡ、ICH-2和TX等名字, 现在则统一命名为caspase, 依据该酶是一个在“天冬氨酸后切断的半胱氨酸蛋白酶”(cysteine protease with ability to cleave after aspartic acid)。因此建立一个统一命名规则及命名程序就显得非常迫切[1~3]。人类基因命名由人类基因命名委员会(Committee of Human Gene Nomenclature, 网址http://www.gene. ucl.ac.uk/nomenclature)管理。
2. 获得一个人类新基因命名符号的过程
2.1 根据人类基因命名规则命名一个基因 命名的原则将在本文第3节中详细说明。
2.2 查找GDB(genome database)数据库 GDB网址http://gdbwww.gdb.org。通过查找GDB以确定命名的新基因名在GDB数据库中没有出现过。要注意的是, 新基因名在GDB中没有出现过不仅是指新基因的全名在GDB数据库中没有出现过, 而且新基因符号的词根在GDB中也要没有出现过。如要命名一个基因为“PTGG1”, 虽然在GDB数据库中没有出现过“PTGG1”, 但“PTGG1”仍不能作为基因符号, 因为“PTG”已用于代表前列腺素(prostaglandin),用“PTGG1”将干扰已用“PTG”为头命名的基因系列:
PTGDR ? 前列腺素D2受体基因
PTGDS 前列腺素D2合酶基因
PTGER1 前列腺素E受体1基因
PTGER2 前列腺素E受体2基因
PTGER3 前列腺素E受体3基因
PTGER4 前列腺素E受体4基因
PTGIR 前列腺素I2受体基因
PTGIS 前列腺素I2合酶基因
此外, 如果一个要命名的新基因已有一些相关的基因符号存在, 则新基因的命名应借鉴相关基因的命名模式, 这就是“平行规则”。如前列腺素I2合酶基因不能用基因符号“PIS”来命名, 而应根据平行规则命名为“PTGIS”。
2.3 查询人类基因命名数据库(网址http://www.gene.ucl.ac.uk/cgi?bin/nomenclature/searchgenes.pl) 确认命名的基因没有与基因家族的基因符号相冲突。有些基因家族和超家族有自己专门的命名小组。例如, 细胞色素P450基因超家族[4]用“CYP”为头命名所有超家族成员, 以数字区分家族成员, 再用字母加数字表示亚家族成员, 如CYP2C38等。其它一些有自己专门命名规则的还有HLA[5]、CD抗原[6]及磷酸二酯酶[7]等。
2.4 将命名的基因符号递交给HUGO/GDB 基因符号如果得到确认, 将进入GDB数据库, 网址http://www.gene.ucl.ac.uk/nomenclature /submit.html。
通过以上步骤就获得了一个基因的命名符号。
3. 人类基因命名规则[8]
3.1 一般规则
(1)基因符号应为大写的拉丁字母或大写的拉丁字母和阿拉伯数字的组合。基因符号为了有使用的价值应尽可能地简洁, 而且不要试图它包含一个基因所有的已知信息。理想的符号应不超过6个字符。基因符号在书写时应用斜体或加下划线, 但在目录中例外。新的基因符号不能与已存在的基因符号重复。
(2)基因符号的第一个字符必须是字母, 随后的字符可以是字母或字母与数字的组合。
(3)基因符号在书写时应在同一行, 不允许在基因符号中使用上标或下标。
(4)不能使用罗马数字。在以前使用的基因符号中的罗马数字应改成相应的阿拉伯数字。
(5)不能使用希腊字母, 所有的希腊字符应改成相应的拉丁字母。希腊?拉丁字母互换表请查阅网页http://www. gene. ucl.ac.uk/nomenclature/ guidelines.html
(6) 在以希腊字母打头的基因符号中须将它改成相应的拉丁字母并放在基因符号的后面。如GLA(galactosidase, alpha)、GLB(galatosidase, beta)。
(7)基因符号应简洁和特异, 并能传达基因的功能或特性。
3.2 基因符号的构建建议
3.2.1 等级符号, 基因家族和系列
(1)为了方便一批相关基因从计算机数据库中获取, 应尽量使用等级方式。
(2)当不同的基因编码具有类似功能的基因产物时, 基因位点的命名应紧跟在基因符号后加阿拉伯数字, 字母和数字之间不能使用空格, 如ADH1、ADH2、ADH3(三个乙醇脱氢酶基因位点)。但是, 如果它们已在历史上存在, 单个字母的后缀也可来命名这些基因位点, 如LDHA、LDHB、LDHC(三个乳酸脱氢酶位点)。
(3)基因符号的最后一个字符可用来指定基因的某一特性。在历史上曾用组织分布指定基因特性, 但如今更倾向于使用阿拉伯数字。因为以前认为的组织特异性在后来证实基因可能并不局限在这些组织中表达。
3.2.2 同源基因
(1)在不同脊椎动物中的同源基因应有相同的命名。
(2)如果一个基因先在其它物种中发现, 然后发现它在人中的同源基因, 则人的基因不应以H开头予以命名。
(3)为了区分来自不同物种的同源基因, 可在基因符号前加由人类细胞遗传学标准化委员会(Committee on Standardization in Human Cytogenetics)制定的三字母代码(物种缩写表请查阅网页http://www.gene.ucl.ac.uk/nomenclature/guidelines.html)。但要注意的是, 这三字母代码仅用作出版, 而不作为基因符号的一部分。这个物种代码是加在基因符号前。如HAS代表人类(Homo sapiens), MMU代表家鼠(Mus musculus)。使用这些物种符号的基因符号的例子如(HSA)G6PD、(HSA)HBB、(MMU)A1b。
(4)如果与非脊椎动物或原核生物同源, 人类基因可用这些同源基因的名字, 并可在后面加L表示类似的(like)和加上数字编号(如果在人中有多个同源基因)。用H来表示同源的方法已不推荐, 将被停止使用。
3.2.3 酶和蛋白质 酶和蛋白质的命名应参照国际生物化学和分子生物学联盟命名委员会(Nomenclature Committee of the International Union of Biochemistry and Molecular Biology, 网址http://alpha.qmw.ac. uk/~ugca000/iupac/jcbn)的推荐[9]。
3.2.4 一些具有特殊用途的保留字 一些字母或字母的组合放在基因符号的最后一个字母的后面表示特定的意义, 如P代表假基因(但要注意BP代表结合蛋白), L代表类似的, R代表受体或调节因子, N或NH代表抑制子。在其它场合应避免使用这些字母或字母的组合。
4. DNA片段的命名
DNA片段的命名一般由四部分组成。第一部分用D表示DNA;第二部分用0、1、2、...22、X、Y、XY表示DNA片段所在的染色体位置, 其中0代表还不知染色体位置, 而XY表示片段在X和Y染色体上都有该片段;第三部分表示用探针检测到的DNA片段的复杂程度, S代表这是一条独一无二的DNA片段, Z代表在染色体一个单一位置重复出现的DNA片段, F代表在多条染色体上都存在同源序列但还没有定义家族的DNA片段;第四部分为区分不同的DNA片段加上一个数字编号, 比如微卫星DNA标签(microsatellite DNA marker)DXS990表示在X染色体上独一无二的编号990的DNA片段。如果DNA片段是一个表达序列, 可在上述四部分后加一个后缀E。?
5. 推测基因的命名
推测基因包括从EST簇或染色体序列中推测而来的基因、假基因及通过交叉杂交(cross?hybridization)或计算机搜索序列数据库而来的基因三种。从EST簇或染色体序列中推测得来的基因的命名是在基因所在染色体的编号后加一个绝对数字编号。假基因是指该序列自己不转录但是与转录的结构基因在序列上高度同源的基因。为了表示假基因与结构基因的对应关系, 假基因的命名是在结构基因后加一个P表示, 如ACTBP2(actin beta pseudogene 2)。通过交叉杂交或计算机搜索序列数据库得来的基因的命名一般是在已知基因后加一个L以表示类似的。
6. 基因命名的发展趋势
人类基因的命名不仅仅只与人类基因相关。基因通过同源性分析而来的同源基因往往借用其它物种中同源基因的名字。一些基因家族和超家族有自己专门的命名体系。因此不同物种命名委员会之间及命名委员会与家族或超家族命名体系间的相互协调对于提高命名有用性, 减少命名的管理费用及方便用户查询是必不可少的[10]。
参考文献
[1]White BJ et al. Nature, 1999, 401: 411
[2]Nature, 1999, 401:411
[3]White BJ. Nature, 1997, 390:397
[4]Nelson DR et al. Pharmacogenetics, 1996, 6(1):1--2
[5]Tissue Antigen, 2000, 55(1):100
[6]Bull World Health Organ, 1997, 75(4):385--387
[7]http://depts. washington. edu/pde/
[8]White JA. Genomics, 1997, 45:468--471
[9]Webb EC. FASEB J, 1993, 7:1192--1194
[10]White JA et al. Genomics, 1999, 62:320--323
(本文原刊登在《生命的化学》2000年第4期)
杨泉胜, 杨岐生
(浙江大学玉泉校区生物系, 杭州310027)
关键词:人类基因;命名;GDB/HUGO
1. 概述
如今, 至少已有10000多条人类基因被发现, 而且每天约有9条新基因登录。在下一个10年中, 人类的所有基因将被发现。这些基因的命名往往在它的结构功能阐明以前就要进行, 因此如果要求基因的命名能表明其功能就不可能。而且, 当一个基因的功能已相当清楚时, 一些习用的命名仍在使用, 这就容易引起误解。白介素转化酶相关蛋白酶就是一个典型的例子。按命名者的偏好, 这个酶曾被使用过FILCE、MACH、Mch5、ICErelⅡ、ICH-2和TX等名字, 现在则统一命名为caspase, 依据该酶是一个在“天冬氨酸后切断的半胱氨酸蛋白酶”(cysteine protease with ability to cleave after aspartic acid)。因此建立一个统一命名规则及命名程序就显得非常迫切[1~3]。人类基因命名由人类基因命名委员会(Committee of Human Gene Nomenclature, 网址http://www.gene. ucl.ac.uk/nomenclature)管理。
2. 获得一个人类新基因命名符号的过程
2.1 根据人类基因命名规则命名一个基因 命名的原则将在本文第3节中详细说明。
2.2 查找GDB(genome database)数据库 GDB网址http://gdbwww.gdb.org。通过查找GDB以确定命名的新基因名在GDB数据库中没有出现过。要注意的是, 新基因名在GDB中没有出现过不仅是指新基因的全名在GDB数据库中没有出现过, 而且新基因符号的词根在GDB中也要没有出现过。如要命名一个基因为“PTGG1”, 虽然在GDB数据库中没有出现过“PTGG1”, 但“PTGG1”仍不能作为基因符号, 因为“PTG”已用于代表前列腺素(prostaglandin),用“PTGG1”将干扰已用“PTG”为头命名的基因系列:
PTGDR ? 前列腺素D2受体基因
PTGDS 前列腺素D2合酶基因
PTGER1 前列腺素E受体1基因
PTGER2 前列腺素E受体2基因
PTGER3 前列腺素E受体3基因
PTGER4 前列腺素E受体4基因
PTGIR 前列腺素I2受体基因
PTGIS 前列腺素I2合酶基因
此外, 如果一个要命名的新基因已有一些相关的基因符号存在, 则新基因的命名应借鉴相关基因的命名模式, 这就是“平行规则”。如前列腺素I2合酶基因不能用基因符号“PIS”来命名, 而应根据平行规则命名为“PTGIS”。
2.3 查询人类基因命名数据库(网址http://www.gene.ucl.ac.uk/cgi?bin/nomenclature/searchgenes.pl) 确认命名的基因没有与基因家族的基因符号相冲突。有些基因家族和超家族有自己专门的命名小组。例如, 细胞色素P450基因超家族[4]用“CYP”为头命名所有超家族成员, 以数字区分家族成员, 再用字母加数字表示亚家族成员, 如CYP2C38等。其它一些有自己专门命名规则的还有HLA[5]、CD抗原[6]及磷酸二酯酶[7]等。
2.4 将命名的基因符号递交给HUGO/GDB 基因符号如果得到确认, 将进入GDB数据库, 网址http://www.gene.ucl.ac.uk/nomenclature /submit.html。
通过以上步骤就获得了一个基因的命名符号。
3. 人类基因命名规则[8]
3.1 一般规则
(1)基因符号应为大写的拉丁字母或大写的拉丁字母和阿拉伯数字的组合。基因符号为了有使用的价值应尽可能地简洁, 而且不要试图它包含一个基因所有的已知信息。理想的符号应不超过6个字符。基因符号在书写时应用斜体或加下划线, 但在目录中例外。新的基因符号不能与已存在的基因符号重复。
(2)基因符号的第一个字符必须是字母, 随后的字符可以是字母或字母与数字的组合。
(3)基因符号在书写时应在同一行, 不允许在基因符号中使用上标或下标。
(4)不能使用罗马数字。在以前使用的基因符号中的罗马数字应改成相应的阿拉伯数字。
(5)不能使用希腊字母, 所有的希腊字符应改成相应的拉丁字母。希腊?拉丁字母互换表请查阅网页http://www. gene. ucl.ac.uk/nomenclature/ guidelines.html
(6) 在以希腊字母打头的基因符号中须将它改成相应的拉丁字母并放在基因符号的后面。如GLA(galactosidase, alpha)、GLB(galatosidase, beta)。
(7)基因符号应简洁和特异, 并能传达基因的功能或特性。
3.2 基因符号的构建建议
3.2.1 等级符号, 基因家族和系列
(1)为了方便一批相关基因从计算机数据库中获取, 应尽量使用等级方式。
(2)当不同的基因编码具有类似功能的基因产物时, 基因位点的命名应紧跟在基因符号后加阿拉伯数字, 字母和数字之间不能使用空格, 如ADH1、ADH2、ADH3(三个乙醇脱氢酶基因位点)。但是, 如果它们已在历史上存在, 单个字母的后缀也可来命名这些基因位点, 如LDHA、LDHB、LDHC(三个乳酸脱氢酶位点)。
(3)基因符号的最后一个字符可用来指定基因的某一特性。在历史上曾用组织分布指定基因特性, 但如今更倾向于使用阿拉伯数字。因为以前认为的组织特异性在后来证实基因可能并不局限在这些组织中表达。
3.2.2 同源基因
(1)在不同脊椎动物中的同源基因应有相同的命名。
(2)如果一个基因先在其它物种中发现, 然后发现它在人中的同源基因, 则人的基因不应以H开头予以命名。
(3)为了区分来自不同物种的同源基因, 可在基因符号前加由人类细胞遗传学标准化委员会(Committee on Standardization in Human Cytogenetics)制定的三字母代码(物种缩写表请查阅网页http://www.gene.ucl.ac.uk/nomenclature/guidelines.html)。但要注意的是, 这三字母代码仅用作出版, 而不作为基因符号的一部分。这个物种代码是加在基因符号前。如HAS代表人类(Homo sapiens), MMU代表家鼠(Mus musculus)。使用这些物种符号的基因符号的例子如(HSA)G6PD、(HSA)HBB、(MMU)A1b。
(4)如果与非脊椎动物或原核生物同源, 人类基因可用这些同源基因的名字, 并可在后面加L表示类似的(like)和加上数字编号(如果在人中有多个同源基因)。用H来表示同源的方法已不推荐, 将被停止使用。
3.2.3 酶和蛋白质 酶和蛋白质的命名应参照国际生物化学和分子生物学联盟命名委员会(Nomenclature Committee of the International Union of Biochemistry and Molecular Biology, 网址http://alpha.qmw.ac. uk/~ugca000/iupac/jcbn)的推荐[9]。
3.2.4 一些具有特殊用途的保留字 一些字母或字母的组合放在基因符号的最后一个字母的后面表示特定的意义, 如P代表假基因(但要注意BP代表结合蛋白), L代表类似的, R代表受体或调节因子, N或NH代表抑制子。在其它场合应避免使用这些字母或字母的组合。
4. DNA片段的命名
DNA片段的命名一般由四部分组成。第一部分用D表示DNA;第二部分用0、1、2、...22、X、Y、XY表示DNA片段所在的染色体位置, 其中0代表还不知染色体位置, 而XY表示片段在X和Y染色体上都有该片段;第三部分表示用探针检测到的DNA片段的复杂程度, S代表这是一条独一无二的DNA片段, Z代表在染色体一个单一位置重复出现的DNA片段, F代表在多条染色体上都存在同源序列但还没有定义家族的DNA片段;第四部分为区分不同的DNA片段加上一个数字编号, 比如微卫星DNA标签(microsatellite DNA marker)DXS990表示在X染色体上独一无二的编号990的DNA片段。如果DNA片段是一个表达序列, 可在上述四部分后加一个后缀E。?
5. 推测基因的命名
推测基因包括从EST簇或染色体序列中推测而来的基因、假基因及通过交叉杂交(cross?hybridization)或计算机搜索序列数据库而来的基因三种。从EST簇或染色体序列中推测得来的基因的命名是在基因所在染色体的编号后加一个绝对数字编号。假基因是指该序列自己不转录但是与转录的结构基因在序列上高度同源的基因。为了表示假基因与结构基因的对应关系, 假基因的命名是在结构基因后加一个P表示, 如ACTBP2(actin beta pseudogene 2)。通过交叉杂交或计算机搜索序列数据库得来的基因的命名一般是在已知基因后加一个L以表示类似的。
6. 基因命名的发展趋势
人类基因的命名不仅仅只与人类基因相关。基因通过同源性分析而来的同源基因往往借用其它物种中同源基因的名字。一些基因家族和超家族有自己专门的命名体系。因此不同物种命名委员会之间及命名委员会与家族或超家族命名体系间的相互协调对于提高命名有用性, 减少命名的管理费用及方便用户查询是必不可少的[10]。
参考文献
[1]White BJ et al. Nature, 1999, 401: 411
[2]Nature, 1999, 401:411
[3]White BJ. Nature, 1997, 390:397
[4]Nelson DR et al. Pharmacogenetics, 1996, 6(1):1--2
[5]Tissue Antigen, 2000, 55(1):100
[6]Bull World Health Organ, 1997, 75(4):385--387
[7]http://depts. washington. edu/pde/
[8]White JA. Genomics, 1997, 45:468--471
[9]Webb EC. FASEB J, 1993, 7:1192--1194
[10]White JA et al. Genomics, 1999, 62:320--323
(本文原刊登在《生命的化学》2000年第4期)