转载-网页方式下利用BLAST 程序进行基因/蛋白质序列比对
丁香园论坛
3257
美国国家生物技术信息中心(National Center of Biotechology Information ,NCBI) 充分利用Internet ,为用户提供了丰富的生物信息资源。NCBI 的BLAST 程序是进行核酸序列和蛋白质序列相似性比较的优秀工具。
1 BLAST简介
NCBIBLAST(Basic Local Alignment Search Tool ,局部对比基本检索工具) 是将核酸序列或蛋白质序列与可用的序列数据库进行相似性比较的一系列程序。其核心是程序BLAST210。BLAST是一个寻找序列间具有相似性的区段,进而比较它们之间结构和功能的工具,而不是仅仅比较整个序列的同源性。BLAST的应用范围相当广泛,适用于核酸或蛋白质序列与可用的序列数据库之间的比较,也可用于几个序列间的比较:核酸- 核酸、核酸- 蛋白质、蛋白质- 蛋白质之间。NCBI 的BLAST 提供了网页、电子邮件以及FTP 三种方式进行序列分析,使用十分方
便。
2 各种BLAST介绍
BLAST经过不断发展完善,有以下几种类型:
2.1 Nucleotide BLAST
Nucleotide BLAST是输入核酸序列,用这些序列与其它核酸序列比较。
2.1.1 Standard nucleotide - nucleotide BLAST(标准核酸- 核酸BLAST) :以三种格式(FASTA 格式、GenBank Accession 编码或GI编码) 的核酸序列与NCBI 核酸序列数据库作比较。
2.1.2 MEGABLAST:该程序使用“模糊算法”加快了比较速度,可以用于快速比较两大系列序列。
2.1.3 Search for short , nearly exact sequences (近似的短序列检索) :该检索和带有默认参数的Standard nucleotide - nucleotideBLAST很相似,是以短序列进行检索。
2.2 Protein BLAST
Protein BLAST是输入蛋白质序列,用这些序列与其它蛋白质序列比较。
2.2.1 Standard protein - protein BLAST(标准蛋白质- 蛋白质BLAST) :以三种格式(FASTA 格式、GenBank Accession 编码或GI编码) 的蛋白质序列与NCBI 蛋白质序列数据库作比较。
2.2.2 PSI - BLAST(Position Specific Iterated BLAST,特别位置重复BLAST) :使用多次检索方式,第一次检索为第二次检索建立一个评分模型,高度保守位置得高数,低保守位置得分趋于0。这个过程被重复多次,同时不断修正评分结果,这种重复检索方法提高了精确度。
2.2.3 PHI - BLAST( Pattern Hit Iterated BLAST,模型位置重复BLAST) :以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。
2.2.4 Search for short , nearly exact sequences (近似的短序列检索) :该检索与带有默认参数的Standard protein - protein BLAST很相似,是以短序列进行检索。
2.3 Translating BLAST
Translating BLAST就是先把待查询序列和序列数据库从核酸序列翻译成蛋白质序列,从而使蛋白质- 核酸之间可以进行比较。
2.3 .1 Translated query ———Protein db [ blastx] :先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。
2.3 .2 Protein query ———Translated db [ tblastn ] :先将核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。
2.3 .3 Translated query ———Translated db [ tblastx] :先将待查询的
核酸序列和核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后再将两种翻译结果在蛋白质水平上进行比较。
2.4 CD - Search
CD - Search 是使用RPS - BLAST程序以一个蛋白质序列与保守结构域数据库(Conserved Domain Database) 做比较。
2.5 Pairwise BLAST
Pairwise BLAST是用BLAST程序实现两个序列之间的比较。选择“序列1”为待比较序列,则“序列2”就是被比较序列。下面是程序选择:
blastn ———用于核酸- 核酸比较。
blastp ———用于蛋白质- 蛋白质比较。
tblastn ———先将核酸序列按6 种读框翻译成蛋白质序列,然后将待比较的蛋白质序列与翻译结果进行比较。
blastx ———核酸序列与蛋白质序列比较。
tblastx ———先将待比较的核酸序列和被比较的核酸序列按6 种读框翻译成蛋白质序列,然后再将两种翻译结果在蛋白质水平上比较。
2.6 Specialized BLAST pages
Specialized BLAST pages 可以对特殊生物或特殊研究领域的序列数据库进行检索。
3 简单举例说明BLAST的使用方法
用一个已知的核酸序列,对nr 数据库(所有无冗余的GenBank + EMBL + DDBJ + PDB 序列:不包括STS、GSS 或HTGS 序列)检索。
打开NCBI BLAST 网页,点击Standard nucleotide - nucleotide BLAST [ blastn] ,出现一个对话框,在“search”右侧的文本框中写入待检索的核酸序列,点击BLAST按扭。出现一个新的对话框,代表检索结果,点击“Format”按扭,可以看到ID 的内容,即检索结果。
这是最基本的一种检索方法,可以根据自己的需要,进一步设置不同的参数,如果不知道某参数的意义,可以直接点击该参数名称获得帮助
1 BLAST简介
NCBIBLAST(Basic Local Alignment Search Tool ,局部对比基本检索工具) 是将核酸序列或蛋白质序列与可用的序列数据库进行相似性比较的一系列程序。其核心是程序BLAST210。BLAST是一个寻找序列间具有相似性的区段,进而比较它们之间结构和功能的工具,而不是仅仅比较整个序列的同源性。BLAST的应用范围相当广泛,适用于核酸或蛋白质序列与可用的序列数据库之间的比较,也可用于几个序列间的比较:核酸- 核酸、核酸- 蛋白质、蛋白质- 蛋白质之间。NCBI 的BLAST 提供了网页、电子邮件以及FTP 三种方式进行序列分析,使用十分方
便。
2 各种BLAST介绍
BLAST经过不断发展完善,有以下几种类型:
2.1 Nucleotide BLAST
Nucleotide BLAST是输入核酸序列,用这些序列与其它核酸序列比较。
2.1.1 Standard nucleotide - nucleotide BLAST(标准核酸- 核酸BLAST) :以三种格式(FASTA 格式、GenBank Accession 编码或GI编码) 的核酸序列与NCBI 核酸序列数据库作比较。
2.1.2 MEGABLAST:该程序使用“模糊算法”加快了比较速度,可以用于快速比较两大系列序列。
2.1.3 Search for short , nearly exact sequences (近似的短序列检索) :该检索和带有默认参数的Standard nucleotide - nucleotideBLAST很相似,是以短序列进行检索。
2.2 Protein BLAST
Protein BLAST是输入蛋白质序列,用这些序列与其它蛋白质序列比较。
2.2.1 Standard protein - protein BLAST(标准蛋白质- 蛋白质BLAST) :以三种格式(FASTA 格式、GenBank Accession 编码或GI编码) 的蛋白质序列与NCBI 蛋白质序列数据库作比较。
2.2.2 PSI - BLAST(Position Specific Iterated BLAST,特别位置重复BLAST) :使用多次检索方式,第一次检索为第二次检索建立一个评分模型,高度保守位置得高数,低保守位置得分趋于0。这个过程被重复多次,同时不断修正评分结果,这种重复检索方法提高了精确度。
2.2.3 PHI - BLAST( Pattern Hit Iterated BLAST,模型位置重复BLAST) :以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。
2.2.4 Search for short , nearly exact sequences (近似的短序列检索) :该检索与带有默认参数的Standard protein - protein BLAST很相似,是以短序列进行检索。
2.3 Translating BLAST
Translating BLAST就是先把待查询序列和序列数据库从核酸序列翻译成蛋白质序列,从而使蛋白质- 核酸之间可以进行比较。
2.3 .1 Translated query ———Protein db [ blastx] :先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。
2.3 .2 Protein query ———Translated db [ tblastn ] :先将核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。
2.3 .3 Translated query ———Translated db [ tblastx] :先将待查询的
核酸序列和核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后再将两种翻译结果在蛋白质水平上进行比较。
2.4 CD - Search
CD - Search 是使用RPS - BLAST程序以一个蛋白质序列与保守结构域数据库(Conserved Domain Database) 做比较。
2.5 Pairwise BLAST
Pairwise BLAST是用BLAST程序实现两个序列之间的比较。选择“序列1”为待比较序列,则“序列2”就是被比较序列。下面是程序选择:
blastn ———用于核酸- 核酸比较。
blastp ———用于蛋白质- 蛋白质比较。
tblastn ———先将核酸序列按6 种读框翻译成蛋白质序列,然后将待比较的蛋白质序列与翻译结果进行比较。
blastx ———核酸序列与蛋白质序列比较。
tblastx ———先将待比较的核酸序列和被比较的核酸序列按6 种读框翻译成蛋白质序列,然后再将两种翻译结果在蛋白质水平上比较。
2.6 Specialized BLAST pages
Specialized BLAST pages 可以对特殊生物或特殊研究领域的序列数据库进行检索。
3 简单举例说明BLAST的使用方法
用一个已知的核酸序列,对nr 数据库(所有无冗余的GenBank + EMBL + DDBJ + PDB 序列:不包括STS、GSS 或HTGS 序列)检索。
打开NCBI BLAST 网页,点击Standard nucleotide - nucleotide BLAST [ blastn] ,出现一个对话框,在“search”右侧的文本框中写入待检索的核酸序列,点击BLAST按扭。出现一个新的对话框,代表检索结果,点击“Format”按扭,可以看到ID 的内容,即检索结果。
这是最基本的一种检索方法,可以根据自己的需要,进一步设置不同的参数,如果不知道某参数的意义,可以直接点击该参数名称获得帮助