基因组序列的搜寻
互联网
1933
基因组序列的搜寻
(一)序列的搜寻
对于序列的搜索,美国加州大学Santa Cruz分校(UCSC)的基因组生物信息学网址(http://genome.UCSC.edu)提供了一个容易使用而且能力特别强的图形基因组浏览器,BLAST搜索则为用DNA或蛋白质序列提供了一个高效、快捷的搜寻基因组的方法。基于DNA的BLAT可快速寻找长度在40 bp或更长的具有95%以上相似性的序列,因此BLAT敏感性没有BLAST好。但可以很快地确定人类序列在基因组上的位置。在搜寻结果的页面上有两个连接:“Browser"和"Detail"。第一个连接到可以编辑图形基因组浏览器上,用户可以选择所有的列项,如ESTs、RefSeqs、SNP、UniGene聚类群、重复片段、人与鼠的同源部位等。这个浏览器是目前最好的展示EST序列位置工具。“Detail"的连接则是从5’到3’的顺序呈现查询序列与基因组序列的比对结果;"DNA"的连接允许用户采用不同的数据格式下载当前展示在浏览器中的序列;"Convert"的连接可将一个人类基因组草图中的序列坐标转换到另一个草图的序列坐标;而“PDF/PS"连接则可以产生一个PDF或PostScrip格式的图像。
表格浏览器提供了用表格式方法来展示基因组,这个工具可以让用户查看和下载含有基因组序列和其相关注释的原始数据库表格。
EnsembleBLASTView(http://www.ensembl.org/Multi/blastvlew/BLA_CIAHBirLR)对于想进行批量搜寻的多序列来说是一个很好的工具,用户可以非常容易地选择所有相关选项,如E值、DustFiltering、重复片段等,还可以自行确定哪些行展示在总结的结果表格中。“Contigview"连接将在Ensembl图形基因组浏览器中揭示用户感兴趣的区域。同时,还可以通过“JumpTo"连接到UCSC和NCBI等主要的基因组浏览器。
H―InvitationalDatabase(H―InvDB,http://WWW.h―invitational.jp/)是另一个可以查询人类基因组的数据库系统。与“G―inergra"的连接提供了cDNA与基因组序列比对的图形展示,通过此图示可对H―InvDB中cDNA与RefSeqs和Ensembel中的转录组进行比较,同时,还可展示PolyA位点、重复单元以及SNP等。
(二)文本(关键词)的搜寻
在UCSC人类基因组浏览器中,用户可以利用染色体位置、GenBank序列号、RefSeqIDs、LocusLinklds或其他关键词对不同的数据进行关键词的查询,用户可以选择不同的人种拼接日期来进行查询。关键词选项可能产生与相关术语相关的一系RefSeq和其他mRNA序列。而Ensemble TextView是对Ensemble数据库进行自由文本搜寻的工具用户可以通过选择人种和索引来搜寻基因、mRNA、蛋白质、UniGene、SNP等信息,同时还可以获得很多主要的编号,如LocusLink、RefSEq、MIM、GO、AffymetrixProbeSet IDs等其他有用的信息。
(三)复杂数据挖掘
UCSCGeneSorter可以用来查询基因家族及基因之间相互关系,还可展示在选择的研究对象中一组相关的基因。而相互关系可以是蛋白质水平上的同源性、基因表达谱的相似性或基因组邻近关系等。整个浏览器支持多种术语和短语的搜寻,包括基因名称、SwissProt中的蛋白质名称、GenBank序列号,或者是基因描述中的词或短语。同时,用户还可以根据自己的需求选择不同的排序方式,如在"SortBy"中选择"Expression(GNF)”,系统通过查询这个数据库,将与用户感兴趣的基因具有相似表达模式的所有相关的数据集展示出来。
基因家族的展示形式是可自由设定的,允许用户选择表格中所列的序列和数量,以及基因展示的数量。结果可以几种不同的格式输出,展示的基因序列可以下载,如cDNA、蛋白质、基因组和启动子序列等,允许用户自行确定上游和下游区域。浏览器的一个重要用途是汇聚一组具有相似特性的基因进行统计分析。如用户可以检测具有相似表达模式的基因启动子的区域,或查看具有相似注释蛋白质的结构模块。