丁香实验_LOGO
登录
提问
提问
我要登录
|免费注册
丁香通
点赞
收藏
wx-share
分享

基因组信息学

丁香园

2415
基因组信息学

陈润生
(中科院生物物理研究所,北京100101)

当前人类基因组研究已进入了“功能基因组”阶段,即将发挥出巨大的社会效益与经济效益。科学家相信生物信息学将在这一研究中起着越来越关键的作用。生物信息学是把基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。因此基因组信息学、蛋白质的结构模拟以及药物设计就构成了生物信息学的三个最重要的组成部分。近年来,随着人类基因组计划(HGP)在世界范围内的开展,破译人类及多种模式生物的遗传密码已成为生物学领域的带头学科。与此同时产生了巨量的基因组信息。分析这些信息是人类基因组研究必不可少的重要内容,并且也带动了整个生物信息学的发展。由于蛋白质结构模拟和药物设计已有大量评述性文章发表,本文主要介绍基因组信息学。

一、基因组信息学的含义
在美国人类基因组计划的第一个公开文本中,对基因组信息学的含义曾有过这样描述:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。具体来说、就是要构建适合于基因组研究的数据库,发展有效的包括算法、软件、硬件在内的信息分析工具以及完善与基因组研究相关的国际互联网络。基因组信息学的实质和目标是,配合人类基因组计划的各项实验研究,测定约30亿个碱基对的人类基因组完整核苷酸顺序,确定全部约10万个人类基因在染色体上的位置以及包括基因在内的各种DNA片段的功能,也就是“读懂”人类基因组。

基因组信息学源于人类基因组计划。自八十年代末人类基因组研究开始以后, 科学家们就发现人类基因组比大肠杆菌基因组约大 1000 倍。如果按 1990 年美国人类基因组计划正式执行时确定的目标:在 15 年时间内,投资 30 亿美元完成人类基因组的测序,那就意味着平均每天要测完55万个碱基。对以这样高速度每天连续增加的数据如何收集、存储及分配是生物学领域从未遇到过的难题。 一些科学家形容整个基因组测序完成后的碱基序列数据可以构成一部100 万页每页有 3000 字符的书,而这部书上只有 4 个字母 (A、T、G、C) 连续反复出现,既无段落也无标点符号,如何解读?这是更大的难题。用数学、 物理学的语言来说人类基因组计划最终面对的是一个由4个元素串接组成的长度为undefined109的一维数据链。在整个链上不仅包含有制造人类全部蛋白质和结构核糖核酸(RNA)的信息(也就是基因),还要有按照特定的时空模式把这些蛋白质和核酸装配成为生物体的四维(三维空间和一维时间)调控信息。如何找到这些信息 的编码方式、调节规律是人类基因组研究一开始就面对的问题。因此在人类基因组计划刚一执行时基因组信息学就作为它的重要组成部分伴随产生了。这也可以从各种人类基因组计划的文本中得到证明。

二、基因组信息学的研究内容

基因组信息学的研究内容主要包含两个重要部分,一是基因组相关数据的收集与管理,另一个是基因组数据内涵的分析与解释,也就是遗传密码的破译。具 体说来它有如下几个组成部分。

(一)、基因组信息的收集、储存、管理与提供

到 1998 年 8 月 GenBank 中收集的核酸序列已达 2532000 条,它们包含的碱基数目是 1797000000 个。与此同时至少有 10 个生物体的完整基因组已被破译,约有 40 个完整基因组正在破译当中。大量基因组数据的出现促进了数据库、分析工具以及网络连接等的快速发展。

1、生物信息数据库
建立数据库是存储基因组相关信息的重要步骤,一个有效的数据库不仅能容纳高速增长的信息,还要便于检索与使用,因此它们都具备友善的用户界面并配 备多种应有软件,以便于用户对原始数据作初步分析。表一列出了与基因组信息相关的重要数据库、服务器以及它们的互联网络地址,以供广大读者使用。 其中:GenBank、EMBL、GDB、PDB、PIR等数据库更是频繁地被用户检索。

表一、基因组信息学相关数据库、服务器和中心

~undefined*****************************************************************************~Kbr_~H~M~2~1Databases~Kbr_~H~M~2~1~Kbr_~H~M~2~1~5_GenBank_~Ka_href~L~4http~I~H~Hwww.ncbi.nlm.nih.gov~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.ncbi.nlm.nih.gov~K~Ha~M~Kbr_~H~M~2~1~5_EMBL_~Ka_href~L~4http~I~H~Hwww.ebi.ac.uk~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.ebi.ac.uk~K~Ha~M~Kbr_~H~M~2~1~5_GDB_~Ka_href~L~4http~I~H~Hgdbwww.gdb.org~4_target~L~4~Sblank~4~Mhttp~I~H~Hgdbwww.gdb.org~K~Ha~M~Kbr_~H~M~2~1~5_PDB_~Ka_href~L~4http~I~H~Hwww.pdb.bnl.gov~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.pdb.bnl.gov~K~Ha~M~Kbr_~H~M~2~1~5_PIR_~Ka_href~L~4http~I~H~Hwww.bis.med.jhmi.edu~HDan~Hproteins~Hpir.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.bis.med.jhmi.edu~HDan~Hproteins~Hpir.html~K~Ha~M~Kbr_~H~M~2~1~5_ExPASy_Molecular_Biology_~Ka_href~L~4http~I~H~Hexpasy.hcuge.ch~4_target~L~4~Sblank~4~Mhttp~I~H~Hexpasy.hcuge.ch~K~Ha~M~Kbr_~H~M~2~1~5_Genome_Sequence_Database_~AGSDB~B_~Ka_href~L~4http~I~H~Hwww.ncgr.org~I80~Hgsdb~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.ncgr.org~I80~Hgsdb~K~Ha~M~Kbr_~H~M~2~1~5_Nucleic_Acid_Database_~ANDB~B_~Ka_href~L~4http~I~H~Hndbserver.rutgers.edu~4_target~L~4~Sblank~4~Mhttp~I~H~Hndbserver.rutgers.edu~K~Ha~M~Kbr_~H~M~2~1~5_DNA_Data_Bank_of_Japan_~ADDBJ~B_~Ka_href~L~4http~I~H~Hwww.nig.ac.jp~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.nig.ac.jp~K~Ha~M~Kbr_~H~M~2~1~5_Structural_Classification_of_Proteins_~ASCoP~B_~Ka_href~L~4http~I~H~Hwww.prosci.uci.edu~Hscop~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.prosci.uci.edu~Hscop~K~Ha~M~Kbr_~H~M~2~undefined*****************************************************************************~Kbr_~H~M~2~1Human_Genome_Center~Kbr_~H~M~2~1~Kbr_~H~M~2~1~5_Baylor_College_of_Medicine_Human_Genome_Center~Kbr_~H~M~2~1~Ka_href~L~4http~I~H~Hgc.bcm.tmc.edu~I8088~Hhome.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hgc.bcm.tmc.edu~I8088~Hhome.html~K~Ha~M~Kbr_~H~M~2~1~5_Cooperative_Human_Linkage_Center_~ACHLC~B_~Ka_href~L~4http~I~H~Hwww.chlc.org~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.chlc.org~K~Ha~M~Kbr_~H~M~2~1~5_Lawrence_Berkeley_Laboratory_Human_Genome_Center_~ALBL~B~Kbr_~H~M~2~1~Ka_href~L~4http~I~H~Hgenome.lbl.gov~HGenomeHome.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hgenome.lbl.gov~HGenomeHome.html~K~Ha~M~Kbr_~H~M~2~1~5_Lawrence_Livermore_National_Laboratory_Biology_and_Biotechnology_Rese~F~Kbr_~H~M~2~1arch_Program_~ALLNL~B_~Ka_href~L~4http~I~H~Hwww~Fbio.llnl.gov~Hbbrp~Hgenome~Hgenome.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww~Fbio.llnl.gov~Hbbrp~Hgenome~Hgenome.html~K~Ha~M~Kbr_~H~M~2~1表一 (接上页)

# Los Alamos National Laboratory Biosciences (LANL)
http://www-ls.lanl.gov/LSwelcome.html
# Resource for Molecular Cytogenetics (UCSF/LBL) http://rmc-www.lbl.gov
# Stanford Human Genome Center http://shgc.stanford.edu
# The Institute for Genomic Research (TIGR) http://www.tigr.org
# Unversity of Michigan Human Genome Center
http://www.hgp.med.umich.edu/Home.html
# University of Texas Health Science Center at San Antonio Genome Center
http://mars.uthscsa.edu
# Washington University Center for Genetics in Medicine
http://ibc.wustl.edu:70/1/CGM
# Whitehead Institute Center for Genome Research (at MIT)
http://www-genome.wi.mit.edu
# Yale University, Albert Einstein Center http://paella.med.yale.edu
# Sanger Centre (UK) http://www.sanger.ac.uk
# Genethon (Frace) http://www.genethon.fr/genethon_en.html
# HGMP Resource Centre (UK) http://www.hgmp.mrc.ac.uk
# GenomeNet (Japan) http://www.genome.ad.jp
~undefined*****************************************************************************~Kbr_~H~M~2~1Human_Chromosome~FSpecific_WWW_Servers~Kbr_~H~M~2~1~Kbr_~H~M~2~1~5_Chromosome_3_~AUniversity_of_Texas~E_San_Antonio~B_~Ka_href~L~4http~I~H~Hmars.uthscsa.edu~HDB~4_target~L~4~Sblank~4~Mhttp~I~H~Hmars.uthscsa.edu~HDB~K~Ha~M~Kbr_~H~M~2~1~5_Chromosome_8_~ABaylor~B_~Ka_href~L~4http~I~H~Hgc.bcm.tmc.edu~I8088~Hchr8~Hhome.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hgc.bcm.tmc.edu~I8088~Hchr8~Hhome.html~K~Ha~M~Kbr_~H~M~2~1~5_Chromosome_9_~ALondon~B_~Ka_href~L~4http~I~H~Hdiamond.gene.ucl.ac.uk~Hchr9home.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hdiamond.gene.ucl.ac.uk~Hchr9home.html~K~Ha~M~Kbr_~H~M~2~1~5_Chromosome_12_~AYale~B_~Ka_href~L~4http~I~H~Hpaella.med.yale.edu~Hchr12~HHome.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hpaella.med.yale.edu~Hchr12~HHome.html~K~Ha~M~Kbr_~H~M~2~1~5_Chromosome_16_~ALANL~B_~Ka_href~L~4http~I~H~Hwww~Fls.lanl.gov~Hdata~Hmap16.txt~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww~Fls.lanl.gov~Hdata~Hmap16.txt~K~Ha~M~Kbr_~H~M~2~1~5_Chromosome_19_~ALLNL~B_~Ka_href~L~4http~I~H~Hwww~Fbio.llnl.gov~Hbbrp~Hgenome.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww~Fbio.llnl.gov~Hbbrp~Hgenome.html~K~Ha~M~Kbr_~H~M~2~1~5_Chromosome_21_~AUSDA~B_~Ka_href~L~4http~I~H~Hprobe.nalusda.gov~I8300~Hcgi~Fbin~Hdbrun~Hhch21~Nc~4_target~L~4~Sblank~4~Mhttp~I~H~Hprobe.nalusda.gov~I8300~Hcgi~Fbin~Hdbrun~Hhch21~Nc~K~Ha~M~Kbr_~H~M~2~1~5_Chromosome_22_~AUniversity_of_Penn.~B_~Ka_href~L~4http~I~H~Hwww.cis.upenn.edu~H~Xcbil~Hchr22db~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.cis.upenn.edu~H~Xcbil~Hchr22db~K~Ha~M~Kbr_~H~M~2~1~5_Chromosome_X_~AUSDA~B_~Ka_href~L~4http~I~H~Hprobe.nalusda.gov~I8300~Hc~Hs.dll~Hnph~F3.sh~Hhchx~Hhchx~Nc~4_target~L~4~Sblank~4~Mhttp~I~H~Hprobe.nalusda.gov~I8300~Hc~Hs.dll~Hnph~F3.sh~Hhchx~Hhchx~Nc~K~Ha~M~Kbr_~H~M~2~1~5_Mitochondrial_Chromosome_~AEmory~B_~Ka_href~L~4http~I~H~Hinfinity.gen.emory.edu~Hmitomap.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hinfinity.gen.emory.edu~Hmitomap.html~K~Ha~M~Kbr_~H~M~2~undefined*****************************************************************************~Kbr_~H~M~2~1Some_Model_Organism_Servers~Kbr_~H~M~2~1~Kbr_~H~M~2~1~5_C.elegans_Genome_Database_~AACeDB~B_~Ka_href~L~4http~I~H~Hmoulon.inra.fr~Hacedb~Hacedb.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hmoulon.inra.fr~Hacedb~Hacedb.html~K~Ha~M~Kbr_~H~M~2~1~5_Drosophila_FlyBase_~AHarvard~B_~Ka_href~L~4http~I~H~Hmorgan.harvard.edu~4_target~L~4~Sblank~4~Mhttp~I~H~Hmorgan.harvard.edu~K~Ha~M~Kbr_~H~M~2~1~5_Mouse_Genome_Database_~AMGD~B_~Ka_href~L~4http~I~H~Hwww.informatics.jax.org~Hmgd.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.informatics.jax.org~Hmgd.html~K~Ha~M~Kbr_~H~M~2~1~5_Dog_Genome_Project_~ABerkeley~B_~Ka_href~L~4http~I~H~Hmendel.berkeley.edu~Hdog.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hmendel.berkeley.edu~Hdog.html~K~Ha~M~Kbr_~H~M~2~1~5_Sheep_Genome_Mapping_Project_~AUSDA~B~Kbr_~H~M~2~1~Ka_href~L~4http~I~H~Hsol.marc.usda.gov~Hgenome~Hsheep~Hsheep.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hsol.marc.usda.gov~Hgenome~Hsheep~Hsheep.html~K~Ha~M~Kbr_~H~M~2~1~5_Cattle_Cytogenetic_Map_~AJapan~B~Kbr_~H~M~2~1~Ka_href~L~4http~I~H~Hws4.niai.affrc.go.jp~Hdbsearch2~Hcmap~Hcmap.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hws4.niai.affrc.go.jp~Hdbsearch2~Hcmap~Hcmap.html~K~Ha~M~Kbr_~H~M~2~1~5_Pig_Map_~ARoslin_Institute~E_UK~B_~Ka_href~L~4http~I~H~Hrio3.ri.bbsrc.ac.uk~Hpigmap~Hpigmap.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hrio3.ri.bbsrc.ac.uk~Hpigmap~Hpigmap.html~K~Ha~M~Kbr_~H~M~2~1~5_Chicken_Map_~ARoslin_Institute~E_UK~B~Kbr_~H~M~2~1~Ka_href~L~4http~I~H~Hrio3.ri.bbsrc.ac.uk~Hchickmap~HChickMapHomePage.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hrio3.ri.bbsrc.ac.uk~Hchickmap~HChickMapHomePage.html~K~Ha~M~Kbr_~H~M~2~1~5_Zebrafish_Site_~AUniversity_of_Oregon~B_~Ka_href~L~4http~I~H~Hzfish.uoregon.edu~4_target~L~4~Sblank~4~Mhttp~I~H~Hzfish.uoregon.edu~K~Ha~M~Kbr_~H~M~2~1~5_Saccharomyces_Genomic_Information_Resource_~Ka_href~L~4http~I~H~Hgenome~Fwww.stanford.edu~4_target~L~4~Sblank~4~Mhttp~I~H~Hgenome~Fwww.stanford.edu~K~Ha~M~Kbr_~H~M~2~1~5_Arabidopsis_Genome_Database_~AAAtDB~B_~Ka_href~L~4http~I~H~Hweeds.mgh.harvard.edu~4_target~L~4~Sblank~4~Mhttp~I~H~Hweeds.mgh.harvard.edu~K~Ha~M~Kbr_~H~M~2~1~5_Maize_Genome_Database_~Ka_href~L~4http~I~H~Hteosinte.agron.missouri.edu~Htop.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hteosinte.agron.missouri.edu~Htop.html~K~Ha~M~Kbr_~H~M~2~1~5_Rice_Genome_Research_Program_~AJapan~B_~Ka_href~L~4http~I~H~Hwww.staff.or.jp~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.staff.or.jp~K~Ha~M~Kbr_~H~M~2~1~5_Agricultural_Genome_~ANational_Agricultural_Library~B_~Ka_href~L~4http~I~H~Hprobe.nalusda.gov~4_target~L~4~Sblank~4~Mhttp~I~H~Hprobe.nalusda.gov~K~Ha~M~Kbr_~H~M~2~1表一 (接上页)

# Mycobacterium Genome Database (MycDB) http://kiev.physchem.kth.se/MycDB.html
# HIV Sequence Database (Los Alamos) http://hiv-web.lanl.gov
~undefined*****************************************************************************~Kbr_~H~M~2~1Bioinformatics_Centers~E_Servers_and_Archives~Kbr_~H~M~2~1~Kbr_~H~M~2~1~5_BioSCAN_~Ka_href~L~4http~I~H~Hgenome.cs.unc.edu~4_target~L~4~Sblank~4~Mhttp~I~H~Hgenome.cs.unc.edu~K~Ha~M~Kbr_~H~M~2~1~5_Swiss_Federal_Institute_of_Technology_~Ka_href~L~4http~I~H~Hcbrg.inf.ethz.ch~4_target~L~4~Sblank~4~Mhttp~I~H~Hcbrg.inf.ethz.ch~K~Ha~M~Kbr_~H~M~2~1~5_Johns_Hopkins_University_Bioinformatics_~Ka_href~L~4http~I~H~Hwww.gdb.org~Hhopkins.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.gdb.org~Hhopkins.html~K~Ha~M~Kbr_~H~M~2~1~5_QUEST_Protein_Database_Center_~ACSHL~B_~Ka_href~L~4http~I~H~Hsiva.cshl.org~4_target~L~4~Sblank~4~Mhttp~I~H~Hsiva.cshl.org~K~Ha~M~Kbr_~H~M~2~1~5_Weizmann_Institute_Biological_Computing_Devision_~Ka_href~L~4http~I~H~Hdapsas1.weizmann.ac.il~4_target~L~4~Sblank~4~Mhttp~I~H~Hdapsas1.weizmann.ac.il~K~Ha~M~Kbr_~H~M~2~1~5_Australian_National_University_~AANU~B_Bioinformatics_~Ka_href~L~4http~I~H~Hlife.anu.edu.au~4_target~L~4~Sblank~4~Mhttp~I~H~Hlife.anu.edu.au~K~Ha~M~Kbr_~H~M~2~1~5_BioMolecular_Engineering_Research_Center_~ABMERC~B_~Ka_href~L~4http~I~H~Hbmerc~Fwww.bu.edu~4_target~L~4~Sblank~4~Mhttp~I~H~Hbmerc~Fwww.bu.edu~K~Ha~M~Kbr_~H~M~2~1~5_European_Molecular_Biology_Laboratory_~AEMBL~B_~Ka_href~L~4http~I~H~Hwww.embl~Fheidelberg.de~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.embl~Fheidelberg.de~K~Ha~M~Kbr_~H~M~2~1~5_Harvard_Biological_Laboratories_~Ka_href~L~4http~I~H~Hgolgi.harvard.edu~4_target~L~4~Sblank~4~Mhttp~I~H~Hgolgi.harvard.edu~K~Ha~M~Kbr_~H~M~2~1~5_NCI_Laboratory_of_Mathematical_Biology_~Ka_href~L~4http~I~H~Hwww~Flmmb.ncifcrf.gov~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww~Flmmb.ncifcrf.gov~K~Ha~M~Kbr_~H~M~2~1~5_W.M.Keck_Center_~Ka_href~L~4http~I~H~Hwww.cs.pitt.edu~HKeck~HWelcome.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.cs.pitt.edu~HKeck~HWelcome.html~K~Ha~M~Kbr_~H~M~2~1~5_Bionet_News_Group_Archives_~Ka_href~L~4http~I~H~Hwww.bio.net~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.bio.net~K~Ha~M~Kbr_~H~M~2~1~5_Internet_Directory_of_Biotechnology_Resources_~Ka_href~L~4http~I~H~Hbiotech.chem.indiana.edu~4_target~L~4~Sblank~4~Mhttp~I~H~Hbiotech.chem.indiana.edu~K~Ha~M~Kbr_~H~M~2~1~5_IUBio_Archive_gopher~I~H~Hftp.bio.indiana.edu~Kbr_~H~M~2~1~5_Pedro~9s_BioMolecular_Research_Tools~Kbr_~H~M~2~1~Ka_href~L~4http~I~H~Hwww.public.iastate.edu~H~Xpedro~Hresearch~Stools.html~4_target~L~4~Sblank~4~Mhttp~I~H~Hwww.public.iastate.edu~H~Xpedro~Hresearch~Stools.html~K~Ha~M~Kbr_~H~M~2~undefined*****************************************************************************~Kbr_~H~M~2~1~Kbr_~H~M~2~1在基因组相关数据库的发展中,以下几方面特别引起人们的重视:
a)、建立基因组信息的评估与检测系统
b)、数据标准化
c)、进行基因组信息的可视化和专家系统的研究
d)、发展次级与专业数据库
在原始数据的基础上,根据不同的特征将其加工,而构建出若干二级数据库,这不仅会给用户带来 很多方便,更重要的是在构建二级数据库过程中,专业人员注入的知识会对用户有很大的启发。著名的二级数据库有:蛋白质结构分类数据库(SCoP),受体数据库,克隆载体数据库等......。

2、 以互联网 (Internet) 为基础的基因组信息学传输网络
在用户与数据库间迅速、有效地传递信息是基因组信息的收集、管理与使用的另一要素。目前随着互联网络的高速发展,与基因组信息相关的数据库都有了自己的Internet地址和主页(Homepage),同时在网上还出现了很多与基因组信 息相关的服务器(见表一)。这一切都十分有利于基因组信息学研究的开展。当前网络和数据库服务的趋势是实现网上的在线 (online) 服务。
近年来我国在这一领域也有了一定的工作,象北京大学物理化学研究所建立的PDB数据库的中国节点;北京大学生命科学院建立的 EMBL 数据库的中国节点;中国科学院生物物理所与日本JIPID的合作将公开发表的我国科学家测定的 DNA和蛋白质序列送入国际数据库,并建立了PIR数据库的中国节点;中国医学科学院肿瘤研究所建立的 NEE-HOW 服务器等。相信这一领域在我国会迅速发展。

(二)、基因组序列信息的提取和分析

基因组信息学的根本任务是破译人类的遗传密码。迄今为止在人类基因组 中真正掌握信息存储与表达规律的,或者说密码已被破译的部分只有 DNA 上编码蛋白质的区域,也就是基因。这部分只占人类基因组的 3%~5%。其余 95% 的基因组序列人们尚不知其功能 (所谓的 “Junk” DNA)。 就是在掌握规律的 3%~5% 中,基因已明确定位的到 1996 年底也仅为 16000 多个,只占人类基因8万~10万个的一小部分。因此基因组信息学面对的任务任务是艰巨的,它不仅要发现与确定新的基因,更重要的是发现存在于 95% “Junk”DNA中的新信息表达与调控规律。基因组信息学面临着极大的挑战, 也提供了前所未有的机遇,让有志者取得重大发现。当前解读人类基因组信息的研究主要集中在以下几个方面:

1、 新基因的发现与鉴定

使用基因组信息学的方法是发现新基因的重要手段,比如在啤酒 酵母完整基因组 (约1200万bp) 所包含的 5932 个基因中,大约 60% 是通过信息分析得到的。使用EST序列信息寻找新基因是当前国际上基因争 夺战的热点。
a) 、利用 EST 数据库 (dbEST) 发现新基因
EST序列 (Expressed Sequence Tags) 是从基因表达的短 c-DNA 序列,它们携带着完整基因的某些片段的信息。到 1998年 2月初在 GenBank 的 EST数据库中已收集了人类 EST序列 923714 条,它大约覆盖了人类基因的 80% 以上。美国国家生物信息中心 (NCBI) 所做的一项研究表明,现在收集到的 94%的原癌基因和抑癌基因都找到了与之匹配的 EST序列。由于 EST序列中包括了大量未发现的人类基因的信息,因此如何利用这些信息发现新基因成了近几年的重要研究课题。中科院生物物理研究所 1996年底就完成了这一研究所需的全部软件,并开始了寻找新基因的研究。现在已经找出了上千条未与多种已知数据库匹配的序列,并不断地通过电脑克隆和组装寻找它们的全长。NCBI的一项研究表明EST数据库中大约存在1。5%的错误序列,值得从事此项研究的科学家注意。
b) 、从基因组 DNA测序数据中确定编码区
这一研究已经进行了很多年,并建立了多种方法。这些方法概括说来分为两类,一类是基于编码区所具有的独特信号,比如起始密码子、终止密码子等,另一类是基于编码区的碱基组成不同于非编码区。这是由于蛋白质中 20种氨基酸出现的概率不同,每种氨基酸的密码子兼并度不同,同一种氨基酸的兼并密码子使用频率不同等原因造成的。它使得编码区的三联码分布远离它的随机分布概率1/64,因此有别于非编码区。近年来一批新的确定编码区的方法出现了,例
如考虑高维分布的统计方法、神经网络方法、分形方法、密码学方法等。在真核基因组中,由于基因结构的复杂性,结构基因并不只由编码区组成。通常它由称为外显子(exon)的编码区和由称为内含子(intron)的非编码区组成。因此在真核基因组中发现新基因就是确定外显子。
随着人类基因组研究的开展,DNA序列数据正以指数方式增加。尽快地发展有效的理论方法以识别人类的8万到10万个基因变得越来越重要。这些理论方法不仅当前可以用于基础研究,将来更可以用于医疗实践。

2、 非编码区信息结构分析

虽然对约占人类基因组 95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。因此寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点课题。
a) 、非编码区中各种组分的分类与确定
非编码区 (“Junk” DNA) 占据了人类基因组的大部分,研究表 明 "Junk" 是 许 多 对 生 命 过 程 富 有 活 力 的 不 同 类 型 的 DNA 的 复 合 体 , 它 们 至 少 包 含: 内 含 子 (intron)、卫 星 (Satellite) DNA、小 卫 星 (minisatellite) DNA、 微 卫 星 (Microsatellite) DNA、非 均 一 核 RNA (简 称 hmRNA)、短 散 置 元 (short interspersed elements , 简 称 SINE)、 长 散 置 元 (long interspersed elements , 简 称 LINE) 、伪 基 因 (pseudogenes),等 各 种 类 型 的 DNA 成 份 或 由 其 表 达 的 RNA 成 分 。 除 此 之 外 顺 式 调 控 元 件, 如 启 动 子、 增 强 子 等 也 属 于 非 编 码 序 列。
一 些 科 学 家 认 为 应 当 把 染 色 体 称 为 信 息 细 胞 器 (information organelle)。 了解 "Junk" DNA 是 了 解 信 息 细 胞 器 的 关 键 步 骤, 也 是 当 前 真 正 的 挑 战。 基 于 这 种 挑 战 , 应 当 发 展 有 效 的 算 法 与 工 具, 迅 速 地 在 大 量 的 基 因 组 序 列 中 找 到 各 种 非 编 码 区。
b)、寻找新的非三联体的编码方式
三联体码是近代分子生物学的重大发现,由此而阐明了生物信息从 DNA 到
蛋白质的传播方式。是否在基因组中仅存在三联体的编码方式呢?是否传递不 同的信息应有不同字长的码呢?人们熟知三联码是用于将 4 个字符组成的基因
中的信息传递给由 20 个字符组成的蛋白质。由于蛋白质中的字符 (氨基酸的种
类) 数大于基因中的字符 (脱氧核苷酸的种类) 数,因此字符的一一对应关系不
足以从基因向蛋白质传递信息。碱基的二联体数 (42=16) 也少于氨基酸的种类数,只有碱基三联体数 (43=64) 才是大于 20 (氨基酸的种类数) 且最接近 20 的碱基组合。所以三联体是 DNA 与蛋白质间传递信息的最经济编码。按照这样的推理人们可以认为由 DNA 到结构 RNA 间的信息传递是单联体码,因为 DNA 与 RNA 的结构单元是一一对应的。如果考虑到人类基因的总数约为 5万到 10万,那么要调节单独的一个基因的调节单元的数目也要与此相应,达到若干万个。 此时三联体编码方式的区分度就远为不足。如果简单地只从字长考虑 48 是 65536,49 是 262144。那么需八联体或九联体码才可以区分出不同的蛋白质基因。这就是生 物信息学家寻找其他非三联体编码方式的原因。我们小组曾在启 动子、内含子和 Alu 序列中用 Z 值等方法寻找过可能的编码字长 。比较清楚的结论是,这些 DNA 的非编码区不是用三联体码传递信息的。我们和国际同行一起正在仔细地寻找可能的新的编码模式。
c)、编码区和非编码区中信息调节规律的研究
虽然 Jacob 和 Monod 的乳糖操纵子模型给出了基因表达调控的最基本模式,但近年来很多发现表明基因的调节是远为 复杂与丰富的。特定组织的细胞 中可能很多基因同时表达,非编码区可能参与基因表达的调控等。对这些方面的实质我们了解的还很不充分。但随着基因组研究进入后基因组时代,功能基因的表达谱得以测定,这些深刻的问题会逐步得到解决。

3、 使用基因组信息的生物学重大问题研究

人类基因组及相关的模式生物基因组提供的大量信息,必将对若干生物领域 重大问题的研究提供有力的帮助。这些问题包括:
a、遗传密码起源的研究;
b、基因组结构的形成与演化;
c、生物进化;等
现仅以生物进化为例,说明基因组信息学在其研究工作中的重要性。自1859年 Darwin 的物种起源 (Origin of Species) 发表以来,进化论是对人类自然科学和自然哲学发展的最重大贡献之一。 进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。完整的理论分析过程必须包含以下步骤:
l 序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;
l 序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;
l 构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;
l 稳定性检验。为了检验构建好的进化树的可靠性,构建过程要随机地进行成百上千次,只有以大概率出现的分支点才是可靠的。本工作通常使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。

必须强调指出的是,相似性(similarity)和同源性(homology)是两个概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。因此只根据相似性分析的结果构建系统进化关系是不足的,经常会导致错误。

(三)、基因组信息分析的方法研究

1、发展有效的能支持大尺度作图与测序需要的软件和数据库以及若干数据库工具,包括互联网络上的远程通讯工具,使之能容易地处理日益增长的物理图、 遗传图和序列信息。改进现有的理论分析方法,象统计方法、隐含马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法等。创建一切适用于基因组信息分析的新方法、新技术。

2、建立严格的多序列比较方法
多序列比较是解决同源性分析等重要问题的关键手段,但迄今为止只有近似方法。虽然两个序列比较有动态规划算法这样的精确方法,但要把它推广到多序列的情况是不现实的。为此发展精确的多序列比较方法是当务之急。

3、探索 DNA 序列及其空间结构信息的新表征
除了研究 DNA 的序列信息之外,探索 DNA 和 RNA 的空间结构是否含有信息以及如何表征它也是非常有兴趣的问题。 很多科学家在这一领域进行了大量有意的探讨。

(四)、应用与发展研究

基因组信息学的研究结果不仅具有重要的理论价值,也可直接应用到工农业生产和医疗实践当中去。

1、与疾病相关的人类基因信息的汇集以及病人样品序列信息检测技术的发展

很多的人类基因是和疾病有关,有人估计与癌症相关的原癌基因约有一千个
,抑癌基因约有一百个。约有六千种以上的人类疾患与各种人类基因的变化相关联。随着人类基因组计划的深入,当我们知道了全部八万到十万个人类基因在染色体上的位置和它们的序列特征以后,人们就可以有效地判定各种分子疾患。为了实现这一目标有两项工作是重要的,一是构建与疾病相关的人类基因信息数据库,二是发展快速、有效的对患者血液、体液、组织等样品进行测序和序列信息检测的技术。近几年国际上已出现了若干与疾病相关的数据库,其他技术也在发展中。

2、建立与动、植物良种繁育相关的基因组数据库

随着人类基因组、水稻基因组以及各种模式生物基因组的解译,根据不同物
种间的进化距离和功能基因的同源性,可以容易地找到各种家畜、经济作物与其经济效益相关的基因,进而对它们按照人们的愿望加以改造。

3、发展基于序列信息的分子生物学技术

分子生物学常用的表达载体、PCR 引物以及各种试剂盒的设计必须依赖于核酸的序列信息。基因组信息学提供的大量信息为这类技术的发展提供了广阔的 天地。

(五)、后基因组时代 (post-genome era) 的基因组信息学

1、从测序基因组 (sequencing genome) 到功能基因组 (functional genome)

人类基因组计划自八十年代末在美国以及全世界开展以来进展非常迅速。当时科学家们把这项研究的核心任务集中到确定全部人类基因在染色体上的位置以及完整基因组的测序上,经过近十年的努力虽然包括构建遗传连锁图、物理 图、确定新基因以及测序在内的任务还没有最终完成,比如测序到1998年初仅 完成了约 5%,基因定位到 1996 年末完成了约 16000 个,但科学家们认为完成这些任务只是时间和投入的问题,并不存在根本的学术障碍。他们 相信这些工作必定会按计划提前完成。在此前景下一些学者就提出如下的问题 :即使我们已经获得了人的完整基因图谱,并测定了人类基因组三十亿个碱基对的顺序,那我们对人的生命活动能说明到什么程度呢?于是他们提出了一系列由上述数据所不能说明的问题,例如:
l 基因表达的产物是否出现与何时出现;
l 基因表达产物的浓度;
l 是否存在翻译后的修饰过程,若存在是如何修饰的;
l 基因敲出 (knock-out) 或基因过度表达的影响是什么;
l 多基因的表现型如何,等。
概括这些问题,其实质应该是:我们虽然知道了基因,知道了核酸序列,但我们不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。很多实验表明,在不同的组织中表达基因的数 目差别是很大的,脑中基因表达的数目最多,约有26000多个。有的组织中只有几十或几百个基因表达。不确切知道每种组织中表达基因的数目,以及每个基因的表达量,就无法从分子水平上了解这一组织在生命活动中的功能。研究工作也表明,同一组织在不同的个体生长发育阶段表达基因的种类、数量也是不 同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达;不考虑伴随着生物的生长发育,基因表达状况的变更,也无法确切地说明生命的过程。因此在下一阶段的基因组研究中,不少科学家认为应当进入一个内含有很大不同、更丰富、更深刻的阶段,生物学家认为这一阶段的核心是获得基因的功能表达谱;物理学家认为应将存在于人类基因组上的静的基因图谱,向时间、空间维上展开。一致的观点是,如果把前一阶段的人类基因组研究称为测序基因组(sequencing genome),那么下一个研究阶段(post-genome era) 应转入功能基因组研究(functional genome),这样才能使生命真的“活”起来。现在科学家们给后基因组冠以不同的名称,象功能基因组、结构基因组(structural genome)、药物基因组(pharmaceutical genome)。尽管提法不同,本质都是研究基因组的功能。因此这些提法实质是一回事,只是侧重点有所不同而已。为了适应功能基因组研究的需要,无论是实验技术和理论工具都有很大发展。下面先简要介绍为适应功能基因组研究所发展的新实验技术,以便于以后的理论讨论。

2、功能基因组时代的实验技术

为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技 术,这些新技术不仅可有效地实现研究基因功能的目标,也为基因组信息学带来了新课题。在核酸层次上的新技术是 DNA 芯片,在蛋白质层次上则是二维凝胶电泳和测序质谱技术。

a)、DNA 芯片(DNA chips) 和微阵列制样(microarray)
所谓 DNA 芯片是一类生物芯片(biochips),就是按特定的方式固定有大量 DNA 探针的硅片、玻片或金属片。DNA 芯片的制作,主要有两类技术,一类是采用光刻蚀与固相合成相结合的方法,使DNA探针片段固化于基因表面。这类方法的优点是密度高,可达每平方厘米几十万个样品点,但缺点是制作工艺复杂,杂交及检测条件要求高,信号分析处理难度大。另一类是采用微阵列制样(microarray)设备。这种设备可以自动、快速地将上万种纯化好的DNA探针打印到玻璃表面,这类技术的优点是制作工艺相对简单,杂交与检测技术也较简单,但缺点是密度较低,一般仅为每平方厘米一万个样品点。当前国际上有几十家公司和研究机构正在从事生物芯片的研制工作,主要集中在美国。目前密度为每平方厘米一万点的芯片已投放市场,高密度(每平方厘米几十万点)的芯片也会在近期投放市场。由于DNA芯片具有高集成度,高并行处理能力,可自动化分析,因此它可对不同组织来源,不同细胞类型,不同生理状态的基因表达进行监测,获得基因表达的功能谱。现在监测酵母基因组功能的芯片已经完成。与此同时,DNA芯片还可用来进行DNA的快速测序,DNA突变检测,药物筛选等。很多科学家认为,就象芯片技术促进了计算机的革命一样,生物芯片技术也将促使生命科学发生革命。它的深远影响不仅表现在基础研究方面,而且在临床医学、农业科学、环境科学等领域也有着广泛的应用。预计生物芯片在下一个世纪会成为一个新兴的产业。

b). 蛋白质组(proteome)研究技术
蛋白质组就是基因组的蛋白质产物。在蛋白质水平上监测基因表达的功能谱,就是监测蛋白质产物的功能谱。所以近几年在DNA芯片发展的同时,也发展了一套在蛋白质水平上研究功能基因组的技术,这就是二维凝胶电泳和测序质谱技术。1996年已经实现了在一个16×18cm的凝胶上分离3000个蛋白质,有了这样的技术,一些简单有机体象 M.genitalium (生殖道枝原体)或 H.influenzae(噬血流感菌)的整个蛋白质组可展现在一个二维凝胶片上。测序质谱技术发展也很快,当前MALDI-TOF MS(matrix-assisted laser desorption/ionisation time-of-flight mass spectrometry)已可在一天之内分析几千个蛋白质. 和生物芯片一样蛋白质组分析技术也必将大大推动功能基因组的研究。目前无论是生物芯片的发展,还是蛋白质组技术的发展都更强烈地依赖于相应的数据库、实验设计与分析方法、蛋白质空间结构模拟技术等生物信息学的理论与工具。

3、 后基因组时代的基因组信息学研究重点
后基因组时代基因组信息学将在围绕DNA芯片与蛋白质谱技术的应用以及几个重要的基础研究方向上有新的发展。随着功能基因组实验技术的深入,大量 的数据库将成为支持这些技术的必然组成部分,象蛋白质序列数据库(如 SWISS
-PROT)、核酸序列数据库(如GenBank)、结构域数据库(如PROSITE)、三维结构数据库(如PDB)、二维凝胶电泳数据库(如SWISS-2DPAGE)、翻译后修饰数据库
(如O-GLYCBASE)、基因组数据库(如OMIM)、代谢数据库等。没有这些数据库的资料,新技术是很难应用的。另外在芯片设计以及对从芯片或测序质谱所得数据的分析上,也需要从理论到软件的支持。除了为实验技术服务之外,基因组信息学本身也面临新的重要研究课题和方向。

a)、完整基因组的比较研究
在后基因组时代,生物信息学家面对的不仅是序列和基因而是越来越多的完整基因组。科学家们对最早的七个完整基因组所做的分析就得到了很多有意义的结论[2]。首先这一工作开创了比较基因组学,他们发现全部基因除个别功能未 知者外可以按照功能和系统发生分为十四类,其中包括与复制、转录、翻译、分子伴娘、能量产生、离子转运、各种代谢相关的基因等。这一工作也为蛋白质分类提供了新的途径。七个完整基因组所代表的生物体都是能独立存活的,最大的是啤酒酵母,它有 5932 个基因,最小的是生殖道枝原体,它只有 468 个基因。随着研究的深入人们自然可以提出并解决这样的深刻而有趣的问题:最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?基因组研究还发现,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人个体差异确如此之大,这是为什么?当我们比较鼠和人的基因组就会发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。表二给出了存在于鼠每个染色体上的基因在人染色体上是如何分布的。可见差别是非常大的,例如存在于鼠一号染色体上的基因已分布到人的一 、二、五、六、八、十三、十八号七个染色体上了。或许鼠与人的表型差异就来自基因组的组织。同样,有的科学家估计不同人种间基因组的差别不大于 0.1%;人猿间差别不大于 1%。可能其表型差异不仅应从基因、DNA 序列找原因,也应考虑染色体组织上的差异。总之,由完整基因组研究所导致的比较基因组学必将为后基因组研究开辟新的领域。

b)、基因表达网络
长期以来令人惊异与困惑的是:生命并不是一群分子的堆积,它是高度有组织的。那么这种有序性的起源是什么?自本世纪六十年代开始于物理学领域的非平衡与非线性研究说明:正常的生物体是一个不断地与外界进行物质和能量交换的开发系统,生物体是远离热力学平衡的,生物体中大量的过程是不可逆的。因而生物才能生长、发育、繁殖和新陈代谢,能进化,是有序的。七十年代以Prigogine为首的布鲁塞尔学派提出了耗散结构的概念,从理论上证明了远离热力学平衡态的系统可以出现有序结构。此后在生物体上的大量观测无论从组织学方面还是生理学方面都找到了很多例子,说明生命活动是具有非平衡、非线性特征的。在分子水平,在基因表达调控方面过去由于实验条件的限制,大多考虑的是对某一特定基因的调节。只研究调节蛋白是如何作用于顺式调控元件,象启动子、增强子等的。人们自然会问:那调节蛋白又是被什么调控的?依次下去就成了一个网络。功能基因组研究开展之后,大量来自DNA芯片和蛋白质组技术的信息将有可能使我们了解这一网络是如何工作的。从而使人们的认识上升到一个新阶段:基因是如何运作来产生结构、产生信息的。这样生物就”活”起来了。因此将物理学中的非线性理论运用到功能基因组的研究中去,用于分析基因表达网络也将是一个重要的新领域。

c)、非编码区功能预测
非编码区的重要性我们在前几部分中已经有过不少讨论,它必定与基因在四维时、空中的表达调控紧密相关,它必定存在着一套严格的规律,这一切有待我们去发现。现在只需着重强调一点,那就是在未来的几年中这一区域的DNA序列数据将以忆想不到的速度增长,这是一个难得的机会,尽早利用这些数据就可能走在国际科学界的最前沿。

表二、鼠染色体上的基因在人染色体上的分布
(数据取自NCBI,表由本文作者整理)

~undefined*****************************************************************************~Kbr_~H~M~2~1鼠染色体号 相应基因在人染色体的号数
1 1、2、5、6、8、13、18
2 2、7、9、10、11、15、20
3 1、3、4、8
4 1、6、8、9
5 1、4、7、12、13、18、22
6 2、3、7、10、12
7 6、10、11、15、16、19
8 1、4、8、13、16、19
9 3、6、11、15、19
10 6、10、12、19、21、22
11 2、5、7、16、17、22
12 2、7、14
13 1、5、6、7、9、15、17
14 3、8、10、13、14、X
15 5、8、12、22
16 3、8、16、21、22
17 6、16、19、21
18 5、10、18
19 9、10、11、X
X X
~undefined*********************************************************************~Kbr_~H~M~2~1~Kbr_~H~M~2~1总之,功能基因组时代是人类基因组研究的一个有活力的新时代。不少科学家说功能基因组时代更是人类基因组研究的收获时代,它不仅赋予人们基础研究重要成果,也会带来巨大的经济效益和社会效益。让我们通过自己的努力去收获、去获取丰硕的果实吧!
提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序