生物信息学的主要研究开发

互联网2013-08-19

1788

基因组包含了构成和维持一个生活有机体所必备的基本信息，由细胞内进行的多种分子生物学反应将这些信息转化为真正的生命现象。基因组的一部分编码蛋白质和RNA，其它部分调控这些大分子的表达。表达的蛋白质及RNA折叠成高度专一的三维结构，在体内的特定位置上实现其功能。这些过程的大量细节都是在分子生物学研究的实验室里揭示出来的，所形成的大量数据，存储于数据库中。生物信息学试图从这些数据中提取新的生物学信息和知识，是一门深深植根于全面深入的实验事实和数据的理论生物学。从目前生物信息学的研究情况来看，国际上公认的生物信息学的研究内容，大致包括以下几个方面：

生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传输的国际联网系统；建立生物信息数据质量的评估与检测系统；生物信息的在线服务；生物信息可视化和专家系统。

基因组序列信息的提取和分析。包括基因的发现与鉴定，如利用国际EST 数据库 (dbEST) 和各自实验室测定的相应数据，经过大规模并行计算发现新基因和新SNPs以及各种功能位点；基因组中非编码区的信息结构分析，提出理论模型，阐明该区域的重要生物学功能；进行模式生物完整基因组的信息结构分析和比较研究；利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。

功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究，基因表达调控网络的研究；与基因组信息相关的核酸、蛋白质空间结构的预测和模拟，以及蛋白质功能预测的研究。

生物大分子结构模拟和药物设计。包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计；蛋白质空间结构模拟和分子设计；具有不同功能域的复合蛋白质以及连接肽的设计；生物活性分子的电子结构计算和设计；纳米生物材料的模拟与设计；基于酶和功能蛋白质结构、细胞表面受体结构的药物设计；基于DNA结构的药物设计等。

生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具，诸如电子网络等远程通讯工具；改进现有的理论分析方法，如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等；创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等；建立严格的多序列比较方法；发展与应用密码学方法以及其他算法和分析技术，用于解释基因组的信息，探索DNA序列及其空间结构信息的新表征；发展研究基因组完整信息结构和信息网络的研究方法等；发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。

应用与发展研究。汇集与疾病相关的人类基因信息，发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术，建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。

总的来说近期生物信息学将在以下几方面迅速发展：大规模基因组测序中的信息分析；新基因和新SNPs（单核苷酸多态性）的发现与鉴定；完整的比较基因组研究；大规模基因功能表达谱的分析；生物大分子的结构模拟与药物设计。而其长远任务是非编码区信息结构分析和遗传密码起源与生物进化的研究。读懂人类基因组，发现人类遗传语言的根本规律，从而阐明若干生物学中的重大自然哲学问题，像生命的起源与进化等。

以下就若干方面再做一定的介绍

1．数据库

据保守估计，目前世界上平均每一分钟就有一个序列增加到核酸序列数据库中，能够从飞速增长的序列数据更高效的提取信息，建立生物信息中心，通过互联网实现全球范围内的信息共享成为必然。欧美各国及日本等西方国家相继成立了生物信息资源和研究中心，如美国国家生物技术信息中心(National Center for Biotechnology Information，NCBI)、位于英国的欧洲生物信息研究所(European Bioinformatics Institute，EBI)、位于瑞士日内瓦的蛋白质专家分析系统(The Expert Protein Analysis System，ExPaSy)、日本国立遗传学研究院(National Institute Genetics，简称NIG)等。以西欧各国为主的欧洲分子生物学网络组织European Molecular Biology network (EMBnet)，成立于1988年，是目前国际上最大的分子生物信息研究、开发和服务机构。它把欧洲乃至世界各国的生物信息中心联系在一起，实现信息共享，并合作进行开发、研究、培训。

2．基因组

在后基因组时代，生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析。生物信息学为分子生物学家提供了一条寻找和研究新基因的新思路，即从高度自动化的实验出发，经过数据的获取与处理、序列片段的拼接、可能基因的寻找、基因功能的预测一直到基因的分子进化研究。这个过程的每一个环节，都是生物信息学研究的重要内容。

高度自动化的实验数据的获得、加工和整理。如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息，是生物信息学的一个重要课题。这种转化大量地体现在各种自动化分子生物学仪器应用上，如DNA测序仪，PCR仪等。这类仪器将实验所得的物理化学信号转化为数字信息，并对其作简单分析，再将分析结果用于实验条件的控制，完成高度自动化的实验过程。从事大规模EST测序和DNA物理图谱构建的实验室都已建立起高度自动化的机器人系统来完成大部分的实验工作。伴随着实验过程的高度自动化甚至工厂化，从事大规模分子生物学项目的实验室，每天需要存储的数据可以轻易地超过几千兆字节。这样大的数据量必须用专门的实验室数据管理系统进行处理，以自动完成包括实验进程和数据的记录，常规数据分析，数据质量检测和问题的自动查找，常规的数据说明和数据输人数据库在内的各项工作。由于不同实验室需处理的数据类型各不相同，目前各个实验室都是各自开发自己的系统，还没有成熟的可用于不同实验室的分子生物学数据管理系统。但随着测序逐渐成为实验室的常规工作，对这种系统的需求会越来越大，此类系统的发展将成为大势所趋。

序列片段的拼接。目前DNA自动测序仪每个反应只能测序500bP左右。如何将这些序列片段拼接成完整的DNA顺序就成为接下来的一个重要工作。传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。现在生物信息学提供了自动而高速地拼接序列的算法，即根据 Lander－ Waterman模型利用鸟枪法进行测序，再将大量随机测序的片段用计算机进行自动拼接。这种技术不仅避免了亚克隆排序所需的大量繁琐的工作，还使序列具有一定的冗余性（redundancy，即一定数量的重复）以保证序列中每个碱基的准确性。

3．基因组序列分析

在基因组测序的原始数据发表后，仍有许多信息研究需要开展，比如注释、同源性分析、基因分类、基因结构分析等，这方面的研究需要建立较优化的数理统计模型，大规模的数据库检索，模式识别和可视化等。在确认了基因的基础上，通过与已知的基因产物的结构和功能、代谢途径和其它生物功能对照，可以实现新基因产物功能的预报，结合定向的生物实验，可以证实预报的功能。

基因区域的预测。在完成序列的拼接后，我们得到的是很长的DNA序列，甚至可能是整个基因组的序列。这些序列中包含着许多未知的基因，下一步就是将基因区域从这些长序列中找出来。所谓基因区域的预测，一般是指预测DNA顺序中编码蛋白质的部分，即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号（如 TATA box和加尾信号）的认识，预测出可能的完整基因。

基因功能预测。实验手段证实一个预测的新基因后，下一步要做的就是寻找这个基因的功能。生物信息学为此提供了一系列方法，使我们的研究能够有的放矢。序列同源比较往往是得到新基后预测其功能的第一步。通过同源比较来预测基因功能是基于这样一个假设：如果基因A与基因B有相当的同源性，那么基因A可能具有类似基因B的功能。利用同源比较算法，将待检测的新基因序列到DNA和蛋白质序列数据库中进行同源检索后，我们可以得到一系列与新基因同源性较高的基因或片段。这些基因和片段的以知的功能信息就为进一步研究新基因功能提供了具有相当参考价值的导向。

通过同源检索，我们可能推测待检的新基因是某个蛋白质家族的新成员，下一步就是寻找新基因中包含的该蛋白质家族的保守序列，这样也就为进一步深入研究其功能作好了准备。多序列同源比较，或称为多序列对齐（multiple－sequence alignment），是将多个序列进行同源比较以发现其共同的结构特征的方法，被广泛用来寻找基因家族或蛋白质家族中的保守部分。由于保守部分往往与家族成员的功能密切相关，所以通过这些方法建立蛋白质家族数据库，能够帮助科学家更好地认识基因的功能。这些数据库可以帮助我们把新基因所属的蛋白质家族及其保守部分找出来，并提供这个家族其他成员的结构和功能信息。

4．蛋白质结构与功能预测

核酸和蛋白质序列以及蛋白质结构数据是生物信息学的主要研究对象。由于测序技术的快速发展及蛋白质结构测定技术的相对滞后，使得现在分子数据库中的序列数据量与结构数据量形成了巨大的反差。鉴于此，序列分析已经成了这一领域现阶段的首要任务。开发有效的数据分析工具，将序列信息转换成生物化学和生理学知识，弄清它们所蕴含的结构和功能信息，最终了解它们所代表的生物学意义。

现阶段揭示序列数据所隐含的生物学意义的主要方法是模式识别技术。顾名思义，模式识别的基本思想是利用存在于蛋白质序列或结构中的某些特征模式识别相关蛋白质的性质。如果某一蛋白质序列或结构中的一部分具有保守性，这种保守性或者与蛋白质的生物活性有关，或者与蛋白质的折叠方式有关；那么，这种特征模式可以用来识别该蛋白质家族中的新成员。换句话说，如果将已知蛋白质的特征序列模式和特征结构模式搜集起来，构建成数据库，则可以用来确定新测定的蛋白质序列中是否具有某种特征模式，从而确定该未知蛋白属于哪个蛋白质家族。

蛋白质二级结构预测的方法有三种。一是由已知结构统计各种氨基酸残基形成二级结构的构象趋势，其中最常用的是Chou 和 Fasman法；二是基于氨基酸的物理化学性质，包括堆积性、疏水性、电荷性、氢键形成能力等；三是通过序列比对，由已知三维结构的同源蛋白推断未知蛋白的二级结构。尽管Chou和Fasman法被公认为是经典的二级结构预测方法，但其准确性只能达到65%。究其原因，是因为用作统计二级结构构象趋势的蛋白质空间结构数据库中非同源蛋白的数量还不够多。基于多序列比对的二级结构预测方法其精度可提高几个百分点。蛋白质三级结构预测，特别是基于二级结构预测的三级结构预测，尽管已经由个别成功的例子，总的说来，还远远没有成熟。

利用数据库搜索找出未知蛋白的同源序列，是序列分析的基础。其基本出发点，是基于序列的相似性比对。相似性(similarity)和同源性(homology)是两个不同的概念。确切地说，相似性概念来自于蛋白质结构分析。它具有两层含义。可以指结构相似或折叠方式相似。也可以指序列或结构虽不具有相似性，但它们具有相似的空间构型。可以认为，相似关系是趋同进化的结果。是从不同的进化起点出发，达到相似的生物功能。

有时一个可能的新基因通过同源检索找不到任何同源基因。这种序列就称为"孤儿"基因。生物信息学也提供一些预测孤儿基因功能的方法。这就是通过基于结构的同源比较（structure－structure alignment）寻找结构同源的基因或直接预测其高级结构来推测其可能的功能。有许多蛋白质高级结构数据库提供结构同源比较的检索。另一方面，直接预测基因产物的高级结构的算法现在已经有不少，然而，由于蛋白质的折叠结构实在太复杂，使得计算最佳构象非常困难。如果结构生物学在这方面的研究能够有所突破，无疑将大大推动基因功能的预测。

5．基因多态性分析与药物设计

即使一个基因的序列已经确定，它只是有代表性的序列之一。在群体的分布中，仍存在有基因的多态性。由于多态性的存在，生物表型及对环境、外源物和药物的反应都有所不同。研究基因多态性可以对群体的基因共性及其中的基因个性都有明确的认识，从而在保健、预防、治疗以及制药方面实现个性化最优化。

生物信息学所提供的数据资料，可以指导对药物作用靶位的选定和药物分子的设计。这种方法有快速高效的特点，它的研究包括大分子结构功能的模拟和预报，药物分子与大分子结合的模拟，关键性基因的致病机制，及生物分子同源性的分析，生物分子在指定细胞的分布和位点以及个体差异等等。

6．分子进化

根据多种生物的基因组数据及对垂直进化和平行演化的研究，可以对生命至关重要的基因结构及它的调控进行研究，对此需要建立较完整的生物进化模型，用基因组的数据来鉴别出环境因素对其进化的影响。这次研究成果应对生态环境，环境卫生提出指导性影响，对研究生命起源也有科学意义。

如我们可以通过比较蛋白质残基同源序列来考察进化关系。在同源序列中，有必要将不同种属中具有相同功能的蛋白质和一个个体中既有一定关系却又不相同的蛋白质加以区别，前者称直系同源物(orthologues)，后者称旁系同源物(paralogues)。直系同源蛋白的序列比较，为分子考古学提供了方向。在某些情况下，利用构建进化树的方法，可以揭示细菌、酵母、昆虫、动物、植物之间的关系。这些关系只能从分子水平才能得以阐明。旁系同源蛋白的研究，对进化的内在机制提供了较为深入的线索。旁系同源蛋白是从同一个基因经连续的复制而形成。复制所得基因经历了各自的进化途径，新物种通过变异和适应而产生。

7．基于遗传的流行病

流行病学研究是医学信息学的重要课题之一。将流行病学的遗传和非遗传性的研究与分子基因信息结合起来，会导致对疾病的机理、个体对某种疾病的易感性和疾病在群体中的分布有更明确的认识，对疾病的预防和治疗有极大的指导意义。

(责任编辑：大汉昆仑王)