【原创】Blast 基础知识扫盲（来自百度文库）

丁香园论坛2015-06-29

2171

NCBI 的 BLast 最好生物核酸的数据库 NCBI 是在 NIH 的国立医学图书馆（NLM）的一个分支。NLM 是因为它在创立和维护生物信息学数据库方面的经验被选择的，而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI 的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。 BLAST 是一个 NCBI 开发的序列相似搜索程序，还可作为鉴别基因和遗传特点的手段。BLAST 能够在小于 15 秒的时间内对整个 DNA 数据库执行序列搜索。NCBI 提供的附加的软件工具有：开放阅读框寻觅器（ORF Finder），电子 PCR，和序列提交工具，Sequin 和 BankIt。所有的 NCBI 数据库和软件工具可以从 WWW 或 FTP 来获得。NCBI 还有 E-mail 服务器，提供用文本搜索或序列相似搜索访问数据库一种可选方法。 NCBI 的 BLast 种类介绍 ? Gapped BLAST （2.0） — 一种 BLAST 版本，允许在它产生的对齐（alignments）中存在缺口。统计有效性的评估是基於使用随机序列的优先模拟。在不久的将来，所有对 Gapped BLAST 的访问都要通过 QBLAST。 ? QBLAST — 一种新的系统，允许用户以他们方便的方式检索 Gapped BLAST 结果，并且可以用各种格式选项多次格式化他们的结果。这个系统也使 NCBI 更有效的使用计算资源，更好的为大家服务。到 1999 年秋季，QBLAST 系统用於所有的 BLAST 搜索。 ? PSI-BLAST — 位点特异迭代 BLAST — 用蛋白查询来搜索蛋白资料库的一个程式。所有被 BLAST 发现的统计有效的对齐被总和起来形成一个多次对齐，从这个对齐，一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索资料库，以找到额外的显著对齐，这个过程可能被反复迭代一直到没有新的对齐可以被发现。 ? PHI-BLAST — 模式发现迭代 BLAST — 用蛋白查询来搜索蛋白资料库的一个程式。仅仅找出那些查询序列中含有的特殊模式的对齐。 ? BLAST 两个序列 — 一个基於 BLAST 的工具，对齐两个核酸或蛋白的序列，产生一个成对的 DNA-DNA 或蛋白—蛋白序列比较。 ? IgBLAST —IgBLAST 被开发出来以便於分析在 GenBank 中的免疫球蛋白的序列。它允许用 blastp 或 blastn 来搜索 nr 资料库或一个由免疫球蛋白生殖系变化区基因的特殊的资料库。搜索可以限制在人类或小鼠的基因。IgBLAST 执行三个主要的功能∶1）报告与查询序列最相似的可变，或 J 区，根据 Kabat et al.来注解免疫球蛋白 domains D， 2）（从 FWR1 到 FWR3），3）对於搜索核酸或蛋白 nr 资料库，通过匹配 IgBLAST 的发现和最接近的生殖系变化区基因来简化识别相关序列的过程。 ? PowerBLAST —PowerBLAST 是一个程式，允许对非常长的序列进行快速的 gapped BLAST 搜索，它把序列分割开，对每个部分搜索，然后把结果组装起来。包含在 Sequin 中的 PowerBlast 版本使用了新的强大的 gapped BLAST 演算法，过滤和物种特异的输出特点还仍旧保留。 ? BLAST E-mail 伺服器 — 基於 e-mail 的序列相似搜索服务，接受 FASTA 格式的核酸或蛋白序列。如果要获得帮助档，给 blast@ncbi.nlm.nih.gov 写一封只有内容为 HELP 的 E-Mail。 ? 网路 BLAST — 一个 WWW Entrez 基於 TCP/IP 的客户-伺服器版本。直接通过 Internet 来连接 NCBI 的资料库来检索资料。有 PC， Mac，Unix，版本的客户软体。 ? 单独的 BLAST — 下载可用於本地执行使用的 BLAST。二进位版本有 IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. 4.0d), LINUX, 和 Win32 系统。BLAST 资料库同样可以下载。专门的 BLAST 页面 ? BLAST 人类染色体 — 人类染色体测序页面的一部分。 ? BLAST against Drosophila melanogaster genome sequence - see additional information on the Drosophila genome above. ? BLAST against dbSNP - additional information about dbSNP is above. ? Microbial Genomes BLAST Databases - BLAST against finished and unfinished microbial genomes. ? BLAST against P. falciparum only, all Plasmodium, or all Toxoplasma in GenBank ? BLAST against P. falciparum 3D7 Genome Project finished and unfinished sequences Primer-BLAST 是 NCBI 的引物设计和特异性检验工具。 PrimerPrimer-Blast 介绍 Primer-BLAST，在线设计用于聚合酶链反应（PCR）的特异性寡核苷酸引物。 Primer-BLAST 可以直接从 Blast 主页（http://blast.ncbi.nlm.nih.gov/）找到，或是直接用下面的链接进入： http://www.ncbi.nlm.nih.gov/tools/primer-blast/ 这个工具整合了目前流行的 Primer3 软件，再加上 NCBI 的 Blast 进行引物特异性的验证。Primer-BLAST 免除了用另一个站点或工具设计引物的步骤，设计好的引物程序直接用 Blast 进行引物特异性验证。并且，Primer-BLAST 能设计出只扩增某一特定剪接变异体基因的引物–an important feature for PCR protocols measuring tissue specific expression（注：没办法准确的翻译，只好作罢，汗！）。Primer-BLAST 有许多改进的功能，这样在选择引物方面比单个的用 Primer3 和 NCBI BLAST 更加准确。 PrimerPrimer-BLAST 的输入 Primer-BLAST 界面包括了 Primer3 和 BLAST 的功能。提交的界面主要包括三个部分：target template target template（模板区）, the primers primers（引物区）, 和 specificity check（特异性验证区）。跟其它的 BLAST 一样，点击底部的“Advanced check parameters”有更多的参数设置。模板（模板（Template））在“PCR Template”下面的文本框，输入目标模板的序列，FASTA 格式或直接用 Accession Number。如果你在这里输入了序列，是用于引物的设计。 Primer-BLAST 就会根据你输入的序列设计特异性引物，并且在目标数据库（在 specificity check 区选择）是唯一的。引物（引物（Primers））如果你已经设计好了引物，要拿来验证引物的好坏。可以在 Primer Parameters 区填入你的一条或一对引物。并且选择好验证的目标数据库（在 specificity check 区选择）。根据需要可设置产物的大小，Tm 值等。特异性（特异性（Specificity））在 specificity check 区，选择设计引物或验证引物时的目标数据库和物种。这一步是比较重要的。这里提供了 4 种数据库：RefSeq mRNA, Genome (selected reference assemblies), Genome (all chromosomes), and nr (the standard non-redundant database)。前两个数据库是经过专家注释的数据，这样可以给出更准确的结果。特别是，当你用 NCBI 的参考序列作为模板和参考序列数据库作为标准来设计引物时，Primer-BLAST 可以设计出只扩增某一特定剪接变异体基因的特异引物。selected reference assemblies 包括以下的物种： human, chimpanzee, mouse, rat, cow, dog, chicken, zebrafish, fruit fly, honeybee, Arabidopsis, 和 rice。Nr 数据库覆盖 NCBI 所有的物种。实例分析用人尿嘧啶 DNA 糖基化酶(uracil-DNA glycosylase genes, UNG, GeneID: 7374) 的两个转录本序列作为一个例子来分析。 UNG1 的序列长一点（NM_003362） UNG2 ，的序列短一点（NM_080911，拿这两个基因的序列 ClustalW 一下就可以了）注：。这里用 UNG2 的序列设计引物，选择 RefSeq mRNA database，物种是 Human，其它默认。结果如下图 A-B 所示，设计的引物只能扩增出 UNG2。看上面的图，把 “Allow primer to amplify mRNA splice variants”这个选项给勾上，出现的结果如下图-C 所示，新的引物也可以扩增出 UNG1（注：我试了一下，不能得到预期的结果，可能参数没设对）。 Figure. Primer-BLAST results for UNG transcript variant 2. The NCBI Reference sequence NM_080911 was used as a template. Top panel: Primers specific to the single splice variant are reported by default with the mRNA RefSeq database limited to human sequences. Bottom panel: Primers that amplify both splice variants are found with the option to allow splice variants.(点击看大图) 一些 Tips 1，在任何时候都要优先使用参考序列的 Gi 号或 Accession 号（尽量不要 Fasta 格式的序列）。另外，确保你的序列是最新版本的（在填 Accession Number 时后面不加版本号就会自动拿最新的序列） 2，就算你对整个序列的某部分感兴趣（如某条染色体上的某个区域），你也应该优化使用 Gi 号或 Accession 号（Primer-BLAST 有参数可以设置设计引物的范围，”Form-To”，如上面的第一幅图所示）。因为用 Gi 号或 Accession 号， NCBI 会自动读取该序列的一些注释数据，对引物的设计更加有利。 3，尽量使用没有冗除的数据库（如 refseq_rna 或 genome database），nr 数据库包括了太多的冗除的序列，会干扰引物的设计。 4，请指定一个或几个 PCR 扩增的目标物种。如果不指定在所有的物种搜索，将会使程序变得很慢，引物的结果也会受其它不相关的物种影响。参考文献 1. Steve Rozen and Helen J. Skaletsky (2000) Primer3 on the WWW for general users and for biologist programmers. In: Krawetz S, Misener S (eds) Bioinformatics Methods and Protocols: Methods in Molecular Biology. Humana Press, Totowa, NJ, pp 365-386. 来源于 Primer-BLAST：NCBI 的引物设计和特异性检验工具 | 柳城博客 BLAST 是 Basic Local Alignment Search Tool 的缩写。序列比较的基本步骤如下： step 1 web site http://ncbi.nlm.nih.gov step 2 web site http://blast.ncbi.nlm.nih.gov/Blast.cgi step 3 根据比较需要点击 blastn（比较核酸序列）或其他，在相应的位置输入序列（FASTA 形式），并在 database 一栏中选择 others（如果做非人类研究的话），点击 blast 提交按钮。你看看这个吧，实在不会你找到你的目的序列自己找找看序列对不对首先登陆到 http://www.ncbi.nlm.nih.gov/BLAST/ 然后选择需要比对的序列类型（核酸或蛋白质），然后 copy 你的序列到相应的窗口，注意，这里要求一定的格式。然后其它都选择默认设置就可以了。一般需要等一小会儿（最多几十秒）。此外，该链接处还有关于其它的 blast，如基因组序列的 blast 等，你可以参考该站点的使用说明。你说进行多序列比对，是否是几个序列之间的比对而不是和 Genbank 的 database 比对呢？如果是前者，有好多软件可用，比如 Dnaman 和 Vec torNTI，更多的软件见 www.bio-soft.net 什么是 BLAST? BLAST (Basic Local Alignment Search Tool)是一套在蛋白质数据库或 DNA 数据库中进行相似性比较的分析工具。BLAST 程序能迅速与公开数据库进行相似性序列比较。BLAST 结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解 BLAST 算法，您可以参考 NCBI 的 BLAST Course ，该页有 BLAST 算法的介绍。 BLAST 功能是什么？ BLAST 对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST 还能发现具有缺口的能比对上的序列。 BLAST 是基于 Altschul 等人在 J.Mol.Biol 上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。从最初的 BLAST 发展到现在 NCBI 提供的 BLAST2.0,已将有缺口的比对序列也考虑在内了。 BLAST 可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 GCG 及 EMBOSS 等软件包中包含有五种 BLAST： 1、BLASTP 是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX 是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。 3、BLASTN 是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN 是蛋白序列到核酸库中的一种查询。与 BLASTX 相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。 5、TBLASTX 是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生 6 条可能的蛋白序列），这样每次比对会产生 36 种比对阵列。由于这种比对? E 值意义：值意义：当用查询序列搜索一个数据库时，完全由机会击中对象的平均数。当用查询序列搜索一个数据库时，完全由机会击中对象的平均数。即，因为随机性造成获得这一联配结果的可能次数。例如，成获得这一联配结果的可能次数。例如，E=1，表示在目前大小的数据库中，完全由机会搜，表示在目前大小的数据库中，到对象数的平均值为 1. 从搜索角度讲，值越小，联配结果越显著（从搜索角度讲，E 值越小，联配结果越显著（E 越接近 0，说明发生这一事件的可能性，越小）值越大，说明这些匹配结果很有可能是随机产生的，；E 越小）值越大，说明这些匹配结果很有可能是随机产生的，而且绝大部分序列来自其他；生物。生物。 Peptide Sequence Databases 蛋白序列的数据库蛋白序列数据库序列的 nr All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF 所有非冗余的的 GenBankCDS 区的翻译序列 + 参考序列的蛋白 + PDB 数据库 + SwissProt 蛋白数据库 + PRF 蛋白数据库 refseq RefSeq protein sequences from NCBI's Reference Sequence Project. 所有 NCBI 的参考序列 swissprot Last major release of the SWISS-PROT protein sequence database (no updates). swissprot 的蛋白数据库 pat Proteins from the Patent division of GenPept. 专利的蛋白数据库 pdb Sequences derived from the 3-dimensional structure from Brookhaven Protein DataBank. PDB 数据库 month All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released inthe last 30 days. 一个月内新增加的蛋白序列 env_nr Protein sequences from environmental samples. 来自 environmentalsamples 的蛋白序列 Nucleotide Sequence Databases 核酸数据库核酸数据库 nr All GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excludingHTGS0,1,2, EST, GSS, STS, PAT, WGS). No longer "non-redundant".所有 GenBank 的核酸序列 + 参考序列中的核酸序列+ EMBL +DDBJ +PDB 核酸序列（但不包括 HTG，EST，GSS 等序列） refseq_rna RNA entries from NCBI's Reference Sequence project NCBI 参考序列中的核酸序列 refseq_genomic Genomic entries from NCBI's Reference Sequence project NCBI 参考序列中的基因组基因组序列基因组 est Database of GenBank + EMBL + DDBJ sequences from EST Divisions 来自 GenBank+ EMBL + DDBJ 的 EST 序列 est_human Human subset of est. 人的 EST 序列 est_mouse Mouse subset. 小鼠的 EST 序列 est_others Non-Mouse, non-Human subset of est.、除了人与小鼠之外的 EST 序列 gss Genome Survey Sequence, includes single-pass genomic data, exon-trappedsequences, and Alu PCR sequences. htgs Unfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished,phase 3 HTG sequences are in nr) 未发布的高通量的基因组测序 pat Nucleotides from the Patent division of GenBank. 专利的核酸序列 pdb Sequences derived from the 3-dimensional structure from Brookhaven Protein DataBank PDB 核酸序列 month All new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last30 days. 一个月内新增的核酸序列 dbsts Database of GenBank+EMBL+DDBJ sequences from STS Divisions . STS 数据库 chromosome A database with complete genomes and chromosomes from the NCBI ReferenceSequence project.. NCBI 参考序列计划中所有的完整基因组和染色体序列 wgs A database for whole genome shotgun sequence entries. 基因组鸟枪法测序得到的序列 env_nt Nucleotide sequences from environmental samples, including those from SargassoSea and Mine Drainage projects. 来自 environmentalsamples 的核酸序列

关于丁香通

公司信息

个人用户

企业机构

无忧采购轻松科研

提问

扫一扫

实验小助手

扫码领资料

反馈

TOP

打开小程序