【原创】Blast 基础知识扫盲(来自百度文库)
丁香园论坛
1832
NCBI 的 BLast 最好生物核酸的数据库 NCBI 是在 NIH 的国立医学图书馆(NLM)的一个分支。NLM 是因 为它在创立和维护生物信息学数据库方面的经验被选择的, 而且这可 以建立一个内部的关于计算分子生物学的研究计划。NCBI 的任务是 发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗 传过程的理解。 BLAST 是一个 NCBI 开发的序列相似搜索程序,还可作为鉴别 基因和遗传特点的手段。BLAST 能够在小于 15 秒的时间内对整个 DNA 数据库执行序列搜索。NCBI 提供的附加的软件工具有:开放阅 读框寻觅器(ORF Finder) ,电子 PCR,和序列提交工具,Sequin 和 BankIt。所有的 NCBI 数据库和软件工具可以从 WWW 或 FTP 来获 得。NCBI 还有 E-mail 服务器,提供用文本搜索或序列相似搜索访问 数据库一种可选方法。 NCBI 的 BLast 种类介绍 ? Gapped BLAST (2.0) — 一种 BLAST 版本,允许在它产生的对 齐(alignments)中存在缺口。统计有效性的评估是基於使用随机序 列的优先模拟。在不久的将来,所有对 Gapped BLAST 的访问都要通 过 QBLAST。 ? QBLAST — 一种新的系统,允许用户以他们方便的方式检索 Gapped BLAST 结果,并且可以用各种格式选项多次格式化他们的结 果。 这个系统也使 NCBI 更有效的使用计算资源, 更好的为大家服务。 到 1999 年秋季,QBLAST 系统用於所有的 BLAST 搜索。 ? PSI-BLAST — 位点特异迭代 BLAST — 用蛋白查询来搜索蛋白资 料库的一个程式。所有被 BLAST 发现的统计有效的对齐被总和起来 形成一个多次对齐, 从这个对齐, 一个位置特异的分值矩阵建立起来。 这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能 被反复迭代一直到没有新的对齐可以被发现。 ? PHI-BLAST — 模式发现迭代 BLAST — 用蛋白查询来搜索蛋白资 料库的一个程式。仅仅找出那些查询序列中含有的特殊模式的对齐。 ? BLAST 两个序列 — 一个基於 BLAST 的工具,对齐两个核酸或蛋 白的序列,产生一个成对的 DNA-DNA 或蛋白—蛋白序列比较。 ? IgBLAST —IgBLAST 被开发出来以便於分析在 GenBank 中的免疫 球蛋白的序列。 它允许用 blastp 或 blastn 来搜索 nr 资料库或一个由免 疫球蛋白生殖系变化区基因的特殊的资料库。 搜索可以限制在人类或 小鼠的基因。IgBLAST 执行三个主要的功能∶1)报告与查询序列最 相似的可变, 或 J 区, 根据 Kabat et al.来注解免疫球蛋白 domains D, 2) (从 FWR1 到 FWR3) ,3)对於搜索核酸或蛋白 nr 资料库,通过匹 配 IgBLAST 的发现和最接近的生殖系变化区基因来简化识别相关序 列的过程。 ? PowerBLAST —PowerBLAST 是一个程式,允许对非常长的序列进 行快速的 gapped BLAST 搜索,它把序列分割开,对每个部分搜索, 然后把结果组装起来。包含在 Sequin 中的 PowerBlast 版本使用了新 的强大的 gapped BLAST 演算法,过滤和物种特异的输出特点还仍旧 保留。 ? BLAST E-mail 伺服器 — 基於 e-mail 的序列相似搜索服务,接受 FASTA 格 式 的 核 酸 或 蛋 白 序 列 。 如 果 要 获 得 帮 助 档 , 给 blast@ncbi.nlm.nih.gov 写一封只有内容为 HELP 的 E-Mail。 ? 网路 BLAST — 一个 WWW Entrez 基於 TCP/IP 的客户-伺服器版 本。直接通过 Internet 来连接 NCBI 的资料库来检索资料。有 PC, Mac,Unix,版本的客户软体。 ? 单独的 BLAST — 下载可用於本地执行使用的 BLAST。二进位版 本有 IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. 4.0d), LINUX, 和 Win32 系 统。BLAST 资料库同样可以下载。 专门的 BLAST 页面 ? BLAST 人类染色体 — 人类染色体测序页面的一部分。 ? BLAST against Drosophila melanogaster genome sequence - see additional information on the Drosophila genome above. ? BLAST against dbSNP - additional information about dbSNP is above. ? Microbial Genomes BLAST Databases - BLAST against finished and unfinished microbial genomes. ? BLAST against P. falciparum only, all Plasmodium, or all Toxoplasma in GenBank ? BLAST against P. falciparum 3D7 Genome Project finished and unfinished sequences Primer-BLAST 是 NCBI 的引物设计和特异性检验工具。 PrimerPrimer-Blast 介绍 Primer-BLAST,在线设计用于聚合酶链反应(PCR)的特异性寡核苷酸引物。 Primer-BLAST 可以直接从 Blast 主页(http://blast.ncbi.nlm.nih.gov/)找 到,或是直接用下面的链接进入: http://www.ncbi.nlm.nih.gov/tools/primer-blast/ 这个工具整合了目前流行的 Primer3 软件,再加上 NCBI 的 Blast 进行引物特异 性的验证。Primer-BLAST 免除了用另一个站点或工具设计引物的步骤,设计好 的引物程序直接用 Blast 进行引物特异性验 证。并且,Primer-BLAST 能设计出 只扩增某一特定剪接变异体基因的引物–an important feature for PCR protocols measuring tissue specific expression(注:没办法准确的翻译, 只好作罢,汗!)。Primer-BLAST 有许多改进的功能,这样在选择引物方面比 单个的用 Primer3 和 NCBI BLAST 更加准确。 PrimerPrimer-BLAST 的输入 Primer-BLAST 界面包括了 Primer3 和 BLAST 的功能。提交的界面主要包括三个 部分:target template target template(模板区), the primers primers(引物区), 和 specificity check(特异性验证区)。跟其它的 BLAST 一样,点击底部的“Advanced check parameters”有更多的参数设置。 模板( 模板(Template) ) 在“PCR Template”下面的文本框,输入目标模板的序列,FASTA 格式或直接用 Accession Number。 如果你在这里输入了序列, 是用于引物的设计。 Primer-BLAST 就会根据你输入的序列设计特异性引物,并且在目标数据库(在 specificity check 区选择)是唯一的。 引物( 引物(Primers) ) 如果你已经设计好了引物,要拿来验证引物的好坏。可以在 Primer Parameters 区填入你的一条或一对引物。并且选择好验证的目标数据库(在 specificity check 区选择)。根据需要可设置产物的大小,Tm 值等。 特异性( 特异性(Specificity) ) 在 specificity check 区,选择设计引物或验证引物时的目标数据库和物种。这 一步是比较重要的。这里提供了 4 种数据库:RefSeq mRNA, Genome (selected reference assemblies), Genome (all chromosomes), and nr (the standard non-redundant database)。前两个数据库是经过专家注释的数据,这样可以给 出更准确的结果。特别是,当你用 NCBI 的参考序列作为模板和参考序列数据库 作为标准 来设计引物时,Primer-BLAST 可以设计出只扩增某一特定剪接变异体 基因的特异引物。selected reference assemblies 包括以下的物种: human, chimpanzee, mouse, rat, cow, dog, chicken, zebrafish, fruit fly, honeybee, Arabidopsis, 和 rice。Nr 数据库覆盖 NCBI 所有的物种。 实例分析 用人尿嘧啶 DNA 糖基化酶(uracil-DNA glycosylase genes, UNG, GeneID: 7374) 的两个转录本序列作为一个例子来分析。 UNG1 的序列长一点 (NM_003362) UNG2 , 的序列短一点 (NM_080911, 拿这两个基因的序列 ClustalW 一 下就可以了) 注: 。 这里用 UNG2 的序列设计引物,选择 RefSeq mRNA database,物种是 Human,其 它默认。结果如下图 A-B 所示,设计的引物只能扩增出 UNG2。看上面的图,把 “Allow primer to amplify mRNA splice variants”这个选项给勾上,出现的 结果如下图-C 所示,新的引物也可以扩增出 UNG1(注:我试了一下,不能得到 预期的结果,可能参数没设对)。 Figure. Primer-BLAST results for UNG transcript variant 2. The NCBI Reference sequence NM_080911 was used as a template. Top panel: Primers specific to the single splice variant are reported by default with the mRNA RefSeq database limited to human sequences. Bottom panel: Primers that amplify both splice variants are found with the option to allow splice variants.(点击看大图) 一些 Tips 1,在任何时候都要优先使用参考序列的 Gi 号或 Accession 号(尽量不要 Fasta 格式的序列)。另外,确保你的序列是最新版本的(在填 Accession Number 时 后面不加版本号就会自动拿最新的序列) 2,就算你对整个序列的某部分感兴趣(如某条染色体上的某个区域),你也应 该优化使用 Gi 号或 Accession 号 (Primer-BLAST 有参数可以设置设计引物的范 围,”Form-To”,如上面的第一幅图所示)。因为用 Gi 号或 Accession 号, NCBI 会自动读取该序列的一些注释数据,对引物的设计更加有利。 3,尽量使用没有冗除的数据库(如 refseq_rna 或 genome database),nr 数 据库包括了太多的冗除的序列,会干扰引物的设计。 4,请指定一个或几个 PCR 扩增的目标物种。如果不指定在所有的物种搜索,将 会使程序变得很慢,引物的结果也会受其它不相关的物种影响。 参考文献 1. Steve Rozen and Helen J. Skaletsky (2000) Primer3 on the WWW for general users and for biologist programmers. In: Krawetz S, Misener S (eds) Bioinformatics Methods and Protocols: Methods in Molecular Biology. Humana Press, Totowa, NJ, pp 365-386. 来源于 Primer-BLAST:NCBI 的引物设计和特异性检验工具 | 柳城博客 BLAST 是 Basic Local Alignment Search Tool 的缩写。 序列比较的基本步骤如下: step 1 web site http://ncbi.nlm.nih.gov step 2 web site http://blast.ncbi.nlm.nih.gov/Blast.cgi step 3 根据比较需要点击 blastn(比较核酸序列)或其他,在相应的位置输入序列(FASTA 形式) ,并在 database 一栏中选择 others(如果做非人类研究的话) ,点击 blast 提交按钮。 你看看这个吧,实在不会你找到你的目的序列自己找找看序列对不对 首先登陆到 http://www.ncbi.nlm.nih.gov/BLAST/ 然后选择需要比对的序列类型(核酸或蛋白质) ,然后 copy 你的序列到相应的窗口,注意, 这里要求一定的格式。然后其它都选择默认设置就可以了。一般需要等一小会儿(最多几十 秒) 。 此外,该链接处还有关于其它的 blast,如基因组序列的 blast 等,你可以参考该站点的使用 说明。 你说进行多序列比对, 是否是几个序列之间的比对而不是和 Genbank 的 database 比对呢?如 果是前者,有好多软件可用,比如 Dnaman 和 Vec torNTI,更多的软件见 www.bio-soft.net 什么是 BLAST? BLAST (Basic Local Alignment Search Tool)是一套在蛋白质数据库或 DNA 数据库中进行相 似性比较的分析工具。BLAST 程序能迅速与公开数据库进行相似性序列比较。BLAST 结果 中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解 BLAST 算法,您可以参考 NCBI 的 BLAST Course ,该页有 BLAST 算法的介绍。 BLAST 功能是什么? BLAST 对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行 比对。BLAST 还能发现具有缺口的能比对上的序列。 BLAST 是基于 Altschul 等人在 J.Mol.Biol 上发表的方法(J.Mol.Biol.215:403-410(1990)),在序 列数据库中对查询序列进行同源性比对工作。从最初的 BLAST 发展到现在 NCBI 提供的 BLAST2.0,已将有缺口的比对 序列也考虑在内了。 BLAST 可处理任何数量的序列,包括蛋白 序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要 么都是核酸数据库。所查询的序列和调用的数据库则可 以是任何形式的组合,既可以是核酸 序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 GCG 及 EMBOSS 等软件包中包含有五种 BLAST: 1、BLASTP 是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条 所查序列作一对一的序列比对。 2、BLASTX 是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸 序列会被翻译成可能的六条蛋白) ,再对每一条作一对一的蛋白序列比对。 3、BLASTN 是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列 作一对一地核酸序列比对。 4、TBLASTN 是蛋白序列到核酸库中的一种查询。与 BLASTX 相反,它是将库中的核酸序 列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX 是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核 酸序列都翻译成蛋白(每条核酸序列会产生 6 条可能的蛋白序列) ,这样每次比对会产生 36 种比对阵列。由于这种比对? E 值意义: 值意义: 当用查询序列搜索一个数据库时,完全由机会击中对象的平均数。 当用查询序列搜索一个数据库时,完全由机会击中对象的平均数。即,因为随机性造 成获得这一联配结果的可能次数。例如, 成获得这一联配结果的可能次数。例如,E=1,表示在目前大小的数据库中,完全由机会搜 ,表示在目前大小的数据库中, 到对象数的平均值为 1. 从搜索角度讲, 值越小,联配结果越显著( 从搜索角度讲,E 值越小,联配结果越显著(E 越接近 0,说明发生这一事件的可能性 , 越小) 值越大,说明这些匹配结果很有可能是随机产生的, ;E 越小) 值越大,说明这些匹配结果很有可能是随机产生的,而且绝大部分序列来自其他 ; 生物。 生物。 Peptide Sequence Databases 蛋白序列的数据库 蛋白序列 数据库 序列的 nr All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF 所有非冗余的的 GenBankCDS 区的翻译序列 + 参考序列的蛋白 + PDB 数据库 + SwissProt 蛋白数据库 + PRF 蛋白数据库 refseq RefSeq protein sequences from NCBI's Reference Sequence Project. 所有 NCBI 的参考序列 swissprot Last major release of the SWISS-PROT protein sequence database (no updates). swissprot 的蛋白数据库 pat Proteins from the Patent division of GenPept. 专利的蛋白数据库 pdb Sequences derived from the 3-dimensional structure from Brookhaven Protein DataBank. PDB 数据库 month All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released inthe last 30 days. 一个月内新增加的蛋白序列 env_nr Protein sequences from environmental samples. 来自 environmentalsamples 的蛋白序列 Nucleotide Sequence Databases 核酸数据库 核酸数据库 nr All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excludingHTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant".所有 GenBank 的核酸序列 + 参考序列中的核酸序列+ EMBL +DDBJ +PDB 核酸序列 (但不 包括 HTG,EST,GSS 等序列) refseq_rna RNA entries from NCBI's Reference Sequence project NCBI 参考序列中的核酸序列 refseq_genomic Genomic entries from NCBI's Reference Sequence project NCBI 参考序列中的基因组 基因组序列 基因组 est Database of GenBank + EMBL + DDBJ sequences from EST Divisions 来自 GenBank+ EMBL + DDBJ 的 EST 序列 est_human Human subset of est. 人的 EST 序列 est_mouse Mouse subset. 小鼠的 EST 序列 est_others Non-Mouse, non-Human subset of est.、 除了人与小鼠之外的 EST 序列 gss Genome Survey Sequence, includes single-pass genomic data, exon-trappedsequences, and Alu PCR sequences. htgs Unfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished,phase 3 HTG sequences are in nr) 未发布的高通量的基因组测序 pat Nucleotides from the Patent division of GenBank. 专利的核酸序列 pdb Sequences derived from the 3-dimensional structure from Brookhaven Protein DataBank PDB 核酸序列 month All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last30 days. 一个月内新增的核酸序列 dbsts Database of GenBank+EMBL+DDBJ sequences from STS Divisions . STS 数据库 chromosome A database with complete genomes and chromosomes from the NCBI ReferenceSequence project.. NCBI 参考序列计划中所有的完整基因组和染色体序列 wgs A database for whole genome shotgun sequence entries. 基因组鸟枪法测序得到的序列 env_nt Nucleotide sequences from environmental samples, including those from SargassoSea and Mine Drainage projects. 来自 environmentalsamples 的核酸序列