生物信息学:融合生物科学与计算机科技的新学
互联网
1913
20世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。而海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对这些数据的分析工作。另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展?并日益渗透到生物科学的各个领域。于是,一门崭新的、拥有巨大发展潜力的新学科——生物信息学——悄然兴起。
生物信息学的诞生及其重要性 早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。但是,就生物信息学的发展而言,它还是一门相当年轻的学科。直到20世纪80—90年代,伴随着计算机科学技术的进步,生物信息学才获得突破性进展。 1987年,林华安博士正式把这一学科命名为“生物信息学”(Bioinformatics)。此后,其内涵随着研究的深入和现实需要的变化而几经更迭。1995年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。 生物信息学不仅是一门新学科,更是一种重要的研究开发工具。从科学的角度来讲,生物信息学是一门研究生物和生物相关系统中信息内容与信息流向的综合系统科学。只有通过生物信息学的计算处理,人们才能从众多分散的生物学观测数据中获得对生命运行机制的系统理解。从工具的角度来讲,生物信息学几乎是今后所有生物(医药)研究开发所必需的工具。只有根据生物信息学对大量数据资料进行分析后,人们才能选择该领域正确的研发方向。 生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。它的许多研究成果可以较快地产业化,成为价值很高的产品。 生物信息学的研究内容 生物信息学的研究内容是伴随着基因组研究而发展的。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释。这个定义的含义是双重的:一是对海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,也就是用好这些数据。 具体地说,生物信息学是把基因组DNA(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA(核糖核酸)基因的编码区。同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律。在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。 纵观当今生物信息学界的现状可以发现,大部分研究人员都把注意力集中在基因组、蛋白质组、蛋白质结构以及与此密切相关的药物设计上。 1. 基因组 基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反应只能读取几百到上千个碱基。这样,要得到人的全部遗传密码,首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。而基因组大规模测序的每一个环节,都同信息分析紧密相关,每一步都紧密依赖于生物信息学的软件和数据库。 2. 蛋白质组 基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行。由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,而从RNA到蛋白质还有许多中间环节的影响,这样,仅凭基因芯片技术人们还不能最终掌握生物功能的具体执行者——蛋白质的整体表达状况。因此,近年在发展基因芯片的同时,人们还发展了一套研究基因组所有蛋白质产物表达情况的技术——蛋白质组研究技术,包括二维凝胶电泳技术和质谱测序技术。然而,最重要的是如何运用生物信息学的方法去分析获得的海量数据,从中还原出生命运转和调控的整体系统的分子机制。 3. 蛋白质结构及新药设计 基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来。要了解它们的功能,只有氨基酸序列是远远不够的。得到这些新蛋白的完整、精确和动态的三维结构,是摆在人们面前的紧迫任务。 近年,随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得了精确的测定。根据生物大分子结构的知识,有针对性地设计药物成为热点。生物信息学的研究不仅可以提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用以及动力学行为的信息。但是,生物信息学的任务远不止于此,最重要的是如何运用数理理论成果,对生物体进行完整系统的数理模型描述,以便使人类能够从一个更明确的角度、以一种更易于操作的方式,来认识和控制自身以及其他生命体。 国内外生物信息学研究的现状 国外一直非常重视生物信息学的发展,各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。目前,绝大部分核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生。它们共同组成国际核酸序列数据库,每天交换数据,同步更新。 近年,美国一些最著名的大学,如哈佛大学、普林斯顿大学、斯坦福大学、加州大学伯克利分校等,都投资几千万到一亿多美元成立了生物学、物理学、数学等学科交叉的新中心,诺贝尔奖获得者朱棣文领导的斯坦福大学的中心还命名为Bio-X。1999年6月,美国NIH的一个顾问小组建议在生物计算领域设立总额为数亿美元的重大科研基金,并成立5到20个计算中心以处理海量的基因组相关信息。 我国对生物信息学领域也越来越重视,一些著名大学和研究所在各自领域取得了一定成绩,例如,北京大学在生物信息学网站建设方面,中科院生物物理所在EST序列拼接及在基因组演化方面,天津大学在DNA序列的几何学分析方面等等。北京大学于1997年3月成立了生物信息学中心,中科院上海生命科学研究院于2000年3月成立了生物信息学中心,分别维护着国内两个专业水平相对较高的生物信息学网站。但从全国总体来看,与国际水平差距还很大。目前,国内生物(医药)科学研究与开发,对生物信息学研究和服务的需求市场非常广阔,但是,真正开展生物信息学具体研究和服务的机构或公司却相对较少,仅有的几家科研机构主要开展生物信息学理论研究,生物信息学服务公司提供的服务仅局限于简单的计算机辅助分子生物学实验设计,而且服务体系也不完善。 展望与建议 生物学是生物信息学的核心,计算机科学技术是它的基本工具。展望生物信息学的未来,就是预测它对生物学的发展将带来哪些根本性的突破。这种预测是十分困难的。然而,科学史的发展表明,科学数据的大量积累将导致重要科学规律的发现。因此,有理由相信,当今海量生物学数据的积累,也将导致重大生物学规律的发现。 当前,生物信息学在国内外的发展基本上都处于起步阶段,各国所拥有的条件也大体相同。因此,这是我国生物信息学研究赶超国际先进水平的极好机会。生物信息学研究投资少,见效快,可充分发挥我国基因信息资源丰富的优势。为此,建议制订一个适合我国国情的生物信息学发展计划;在条件具备的大学里建立生物信息学专业,培养专门人才;鼓励并支持数学、物理、化学和计算机科学技术工作者,学习有关的生物学知识,开展生物信息学方面的研究。这样,经过十几年或更长时间的努力,我国完全有可能成为生物信息学研究的强国。 |