数据库的搜索简介
互联网
不言而喻,数据库查询为生物学研究提供了一个重要工具,在实际工作中经常使用。然而,在分子生物学研究中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。对于氨基酸序列来说,有可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。因此,数据库搜索与数据库查询一样,是生物信息学研究中的一个重要工具。
弄清数据库搜索的基本概念,对于选择恰当的搜索算法和搜索程序,正确分析搜索结果,都十分必要。数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。为叙述方便,我们把新测定的、希望通过数据库搜索确定其性质或功能的序列称作检测序列(probesequence),而把通过数据库搜索得到的和检测序列具有一定相似性的序列称目标序列(subjectsequence)。为了确定检测序列和一个已知基因家族之间的进化关系,在通过数据库搜索得到某些相似序列后,还需要判断其序列相似性程度。如果检测序列和目标序列的相似性程度很低,还必须通过其它方法或实验手段才能确定其是否属于同一基因家族。
基本概念
这里简要介绍一下数据库搜索基于的基本概念和算法。
相似性和同源性
如上所述,数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。总之,不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。
相似性概念的含义比较广泛,除了上面提到的两个序列之间相同碱基或残基所占比例外,在蛋白质序列比对中,有时也指两个残基是否具有相似的特性,如侧链基团的大小、电荷性、亲疏水性等。在序列比对中经常需要使用的氨基酸残基相似性分数矩阵,也使用了相似性这一概念。此外,相似性概念还常常用于蛋白质空间结构和折叠方式的比较。
局部相似性和整体相似性
序列比对的基本思想,是找出检测序列和目标序列的相似性。比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除(图3.1)。序列比对的最终实现,必须依赖于某个数学模型。不同的模型,可以从不同角度反映序列的特性,如结构、功能、进化关系等。很难断定,一个模型一定比另一个模型好,也不能说某个比对结果一定正确或一定错误,而只能说它们从某个角度反映了序列的生物学特性。此外,模型参数的不同,也可能导致比对结果的不同。
序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的,这些部位的序列具有相当大的保守性,尽管在序列的其它部位可能有插入、删除或突变。此时,局部相似性比对往往比整体比对具有更高的灵敏度,其结果更具生物学意义。
区分这两类相似性和这两种不同的比对方法,对于正确选择比对方法是十分重要的。应该指出,在实际应用中,用整体比对方法企图找出只有局部相似性的两个序列之间的关系,显然是徒劳的;而用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相同。BLAST和FastA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度,而基于整体相似性比对的数据库搜索程序则需要超级计算机或专用计算机才能实现。
相似性分数矩阵
在对蛋白质数据库搜索时,可采用不同的相似性分数矩阵,以提高搜索的灵敏度和准确率。常用的相似性矩阵有突变数据矩阵(MutationDataMatrix,简称MD)和模块替换矩阵(BLOcksSubstitutionMatrix,简称BLOSUM)。
在序列比对中,通常希望使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机出现的概率的比值的矩阵。这些比值可以用相关几率(relatednessodds)矩阵表示。这就是突变数据相似性分数矩阵产生的基础,在序列比对过程中,两个序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个比对的分值。在实际使用时,通常取几率值的对数以简化运算。因此,常用的突变数据矩阵PAM250实际上是几率值的对数矩阵(图3 .2)。矩阵中值大于0的元素所对应的两个残基之间发生突变的可能性较大,值小于0的元素所对应的两个残基之间发生突变的可能性较小。
突变数据矩阵PAM即可接受点突变(PointAcceptedMutation,简称PAM)。1个PAM的进化距离表示100个残基中发生一个残基突变的概率。对应于一个更大进化距离间隔的突变概率矩阵,可以通过对初始矩阵进行适当的数学处理得到[Dayhoff等,1978],如常用的PAM250矩阵,PAM250相似性分数矩阵相当于在两个序列之间具有20%的残基匹配(图3.2) 。主对角线上分数值是指两个相同残基之间的相似性分数值,有些残基的分值较高,如色氨酸W为17、半胱氨酸C为12,说明它们比较保守,不易突变;有的残基的分值较低,如丝氨酸S、丙氨酸A、门冬酰氨N三种氨基酸均为2,这些氨基酸则比较容易突变。不同氨基酸之间的分数值越高,它们之间的相似性越高,进化过程中容易发生互相突变,如苯丙氨酸F和酪氨酸Y,它们之间的相似性分数值是7。而相似性分数值为负数的氨基酸之间的相似性则较低,如甘氨酸和色氨酸之间为-7,它们在进化过程中不易发生互相突变。此外,表中把理化性质相似的氨基酸按组排列在一起,如碱性氨基酸组氨酸H、精氨酸R和赖氨酸K。
突变数据矩阵的产生基于相似性较高(通常为85%以上)的序列比对,那些进化距离较远的矩阵(如PAM250)是从初始模型中推算出来而不是直接计算得到的,其准确率受到一定限制。而序列分析的关键是检测进化距离较远的序列之间是否具有同源性,因此突变数据矩阵在实际使用时存在着一定的局限性。
而模块替换矩阵BLOSUM则以序列片段为基础,它是基于蛋白质模块数据库BLOCKS,Henikoff夫妇(Henikoff和Henikoff,1992)从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。
在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以有效地被看作为单一序列。通过设置不同的百分比,产生了不同矩阵。由此,例如高于或等于80%相同的序列组成的串可用于产生BLOSUM80矩阵(BlOcksSUbstitutionMatrix发音为blossom);那些有62%或以上相同的串用于产生BLOSUM62矩阵,依此类推。BLOSUM与BLOCKS对于同样的序列比对产生的结果在局部有所不同,可能是一个认为不相似不可以替换而另一个认为相似可以替换。必须说明,如果比对这两个序列高度相似,这些细微的差别对整个序列比对结果的影响不大,但在序列比对的边界区可能产生显著影响,此时增强微弱信号以探测远距离相关变得十分重要。
From NCBI