[转帖]蛋白质组研究:无尽的挑战
丁香园论坛
1384
自从人类基因组计划启动以来,公共媒体不断向大众勾画着一幅幅美丽的图景,使人们认为,一旦科学家把各种生物基因组的全部碱基排列顺序测定清楚,生命的遗传奥秘就会显露无余。但是,真实的图景远不像普通人想象的那样简单。遗传信息并不直接参与生命活动,而是通过控制蛋白质的形成间接地指导有机体的新陈代谢。也就是说,一个基因所含的遗传信息,通过一系列复杂的反应,最终导致了相应的蛋白质形成,蛋白质再参与到生命的各种活动中去。所以,要想真正揭开遗传的奥秘,仅仅了解基因组的碱基排列顺序是很不够的,还必须认识基因的产物——蛋白质。
与基因组研究的战略一样,科学家们已不再局限于对个别蛋白质进行研究,而是对细胞或组织内成千上万的蛋白质同时进行研究,即蛋白质组学(proteomics)。2001年2月15日,英国《自然》周刊在发布人类基因组框架图时,同期登载了一条关于人类蛋白质组研究组织(Human Proteome Organization,HUPO)成立的消息,标题就叫“现在是蛋白质组了”。但科学家们也意识到,蛋白质组研究要比基因组研究复杂得多。
剪不断理还乱的“怪圈”
存在于细胞核里的DNA构成了基因组。基因组作为遗传信息的载体,最根本的特征就是稳定不变。对单细胞生物而言,不论在什么样的生长条件下,其基因组始终保持不变。对多细胞生物来说,每一个个体的基因组,在构成个体的不同种类的细胞里都是一样的,知道了个体内某一细胞内的基因组就知道了该个体所有细胞的基因组。然而对于蛋白质组而言,由于蛋白质是生命活动的主要执行者,不同类型的细胞或同一个细胞在不同的活动状态下,其蛋白质组的蛋白质种类构成却是很不一样的。
所以,蛋白质组与基因组的一个重要差别就是蛋白质组具有多样性。这种差别要求我们对“蛋白质组”的概念要进行仔细的分析。目前蛋白质组比较公认的定义是:一个基因组内所有基因表达的全部蛋白质。这种定义从字面上容易理解,但在实际中却很成问题。
任何一种生物的基因组,都是由不编码蛋白质的核苷酸序列和编码蛋白质的核苷酸序列(基因)所组成。基因通常只是基因组的一小部分,例如编码人类蛋白质的核苷酸序列大约占人类基因组的2%。要想从混杂有大量非编码核苷酸序列的基因组中找出基因,如同沙里淘金。基因组研究的结果表明,一个基因组拥有的“基因”数目是由两部分组成的:通过实验证明确有蛋白质产物的真实基因、根据起始密码和终止密码序列所确定的潜在基因。生物学家们把这两类基因都称为“开放阅读框”(open reading frame,ORF)。因此,一个基因组内的基因数目通常是指ORF的数目。
当一个基因组的全序列测定之后,确定其含有的ORF就成为了主要任务,称为基因注释。目前用于基因注释的方法还有较高的出错率,尤其对于那些存在不连续基因(即在一个基因内插有非编码的核苷酸序列)的复杂基因组,出错的问题更为突出。此外,这些ORF是否与蛋白质存在一一对应关系也是一个问题。一方面,人们已经发现有许多“假基因”(pseudogene)的存在,这些假基因有和真基因相同的ORF,但却从不表达。另一方面,由于存在RNA水平上遗传信息的加工——mRNA编辑(RNA editing),以及蛋白质水平上遗传信息的加工——蛋白质剪接(protein splicing),许多蛋白质很难找到直接对应的ORF。如果我们不能确定基因组的“所有”基因,我们从何知道蛋白质组的“全部”蛋白质?
显然,确定基因数目最可靠的方法是通过研究蛋白质组来进行。据最新统计,人类基因组拥有的基因数目大约是在3万到4万个之间。如果能够把人体252种细胞内的全部蛋白质都给鉴定出来,那么我们就有可能真正知道人类基因组的所有基因。但是这样一来,基因组和蛋白质组形成了“循环定义”:蛋白质组是以基因组拥有的所有基因的表达产物来构成,而所有基因的确定又必须通过蛋白质组来给予肯定。可见,要找出一个生物体基因组的所有基因和相应的全部蛋白质,是一项非常困难的任务。
没有标尺的度量
不同生物的基因组大小有着很大的差别。例如芽殖酵母基因组有1200万碱基对,而人类基因组则为32亿碱基对。基因组不论大小,其核苷酸的数量总是很明确的。然而,对蛋白质组来说,蛋白质的种类究竟有多少就很难说了。上面说过,蛋白质组可以被定义为基因组的基因表达的所有蛋白质,但这一定义没有考虑蛋白质的化学修饰。细胞内的大部分蛋白质通常在合成结束后,都被进行过化学基团的修饰,如磷酸化、糖基化、酰基化等等。修饰过的蛋白质的物理化学性质和生物学功能,均不同于未修饰的蛋白质。如果把一个修饰蛋白视为一种新的蛋白质,那么蛋白质组的蛋白质数量,将远远大于相应的基因组的基因数量。在这个意义上,人们估计人类蛋白质组的蛋白质种类大约在20万到200万之间。显而易见,蛋白质组蛋白质数量的估计是非常模糊的。
从蛋白质修饰的角度来看,不仅仅是蛋白质种类大大增加,更重要的是,由于不存在度量修饰蛋白质种类的尺度,人们也许永远不能像确定基因组核苷酸序列那样,准确地统计出生物体内蛋白质组的蛋白质总数。如果说表达产生的蛋白质种类可以根据基因的数目来确定,那么修饰形成的蛋白质种类只有依靠对蛋白质的直接研究来判定。生命是一个永远处于变化中的开放系统。既然蛋白质的修饰和生命活动密切相关,因而这种研究是没有止境的。从这种意义上来说,对基因组核苷酸序列的测定是一种“有限”的工作,而对蛋白质组蛋白质种类的确定则是一种“无限”的工作。
四维尺度下的研究
DNA作为遗传信息的载体,以双螺旋的形式存在于细胞核内,在细胞一代代的繁衍过程中其碱基序列始终保持不变,因此在测定基因组的DNA序列时不需要考虑时空的影响。而在蛋白质组的研究中,时间和空间的影响都是不可忽略的。
首先,在个体发育的不同阶段或细胞的不同活动时期,细胞内产生的蛋白质种类是不一样的。此外,不同蛋白质的寿命也不一样。有些蛋白质在合成后成为细胞的结构成分,相当稳定;而有些蛋白质在产生后被用来进行某种细胞活动,比如基因转录的调控,工作一旦完成就被迅速降解。因此,在分析蛋白质组的蛋白质成分时,需要把时间作为一个重要的参数。对于在不同时间过程中蛋白质组的组成成分的比较分析——差异蛋白质组研究,已成为当前蛋白质组学的主要内容。
蛋白质的另一个重要特征是,不同的蛋白质通常分布在细胞的不同部位,它们的功能与其空间定位密切相关。要想真正了解蛋白质的功能,通常还需要知道蛋白质所处的空间位置。更为重要的是,许多蛋白质在细胞里不是静止不动的,它们在细胞里常常通过在不同亚细胞环境里的运动发挥作用。例如细胞周期的调控过程、细胞的信号转导和转录调控,都依赖于蛋白质空间位置的变化和运动。因此,蛋白质组学中又派生了一个与空间紧密相关的新研究领域——亚细胞蛋白质组学。这种亚细胞蛋白质组可能是细胞器蛋白质组,如高尔基体蛋白质组;也可能是比细胞器还要小的组分,如核膜的蛋白质组。
永 不 孤 独
在不了解基因组序列的情况下,人们曾经推测,生命的复杂程度是由基因组的基因数量来决定的。也就是说,生命的复杂程度越高,其基因组拥有的基因数目越大。但随着各种生物的基因组全序列的测定,科学家们认识到情况并非如此。线虫(C. elegans)是一种低等动物,其基因组的基因数为1.9万多个。而人类基因组框架图的完成表明,人基因组的基因总数仅仅比线虫多1.5万个左右,远不是预期的10万到15万。刚刚完成的水稻基因组框架图更让人吃惊,其基因总数在4.6万到5.5万之间,比人的基因还要多。显然,基因数目与生命的复杂程度没有直接的相关。那么,在生命从简单到复杂,从低级到高级的进化过程中,究竟是什么因子体现了这种变化?
随着功能基因组研究的进展,人们已逐渐意识到,这种因子可能就是不同基因的产物蛋白质之间“排列组合”的复杂程度。也就是说,原始生命体中蛋白质之间的相互关系比较简单,而高级生命体中蛋白质之间则具有较为复杂的关系网。
蛋白质组具有一个不同于基因组的重要特性,即蛋白质彼此间有着直接的影响。某一个蛋白质功能的实现,通常离不开它与其他蛋白质之间的相互作用。也许可以说,不与其他蛋白质发生作用的“孤立蛋白质”根本就不存在。过去,科学家们因研究手段的限制,只能研究数个蛋白质之间的相互作用,而今天通过蛋白质组学的新方法,可以同时研究成千上万个蛋白质之间的相互作用。例如,芽殖酵母基因组全部ORF的表达产物——共6000多个多肽,彼此间可能存在的作用情况已进行了分析,从中发现了9百多种可能的相互作用,涉及到1000多个蛋白质。科学家为这一类型的研究专门发明了一个新的名词——“相互作用组”(interactomes)。
相互作用组研究可以分为两类。第一类是研究蛋白质相互作用的网络。细胞内的许多活动如信号转导等,都是通过一个复杂而广泛的蛋白质相互作用网络实现的。相互作用组的另一类研究是蛋白质复合体组成的分析。蛋白质复合体通常可以分为两种。一种是结构型的蛋白质复合体,如核孔复合体,这一类通常比较稳定?鸦另一种则是功能型蛋白质复合体,例如负责转录的转录蛋白复合体、负责DNA复制的复制蛋白复合体等,这类复合体只有在执行功能时才聚合在一起,任务完成后就解离。当前,相互作用组研究已成为蛋白质组研究领域的一个重要内容。
技 术 的 烦 恼
基因组的物质基础是DNA,它由两条螺旋状生物大分子链组成,其中每一条链都由成千上万的核苷酸连接而成,这些核苷酸仅含有四种类型的碱基。基因组研究的核心任务,就是要测定DNA链上四种碱基的排列顺序。因此,DNA测序技术是基因组研究中一个最基本和最主要的工具,这样一种单一的技术就能胜任基因组的研究工作。但是,在蛋白质组研究中,需要的研究技术远远不止一种,并且技术的难度也要大于基因组研究技术。
首先,由于蛋白质是由20种化学性质各异的氨基酸所组成,因此不同蛋白质的物理化学性质差别很大。例如,有些蛋白质易溶于极性溶剂,有些蛋白质则难溶于极性溶剂;有些蛋白质较稳定,有些蛋白质则易降解。此外,蛋白质的各种修饰和相互作用更增加了蛋白质的复杂性。仅仅通过一两种技术,显然不可能完成对蛋白质组内成千上万种不同性质的蛋白质的检测。
其次,不同种类的蛋白质的量在细胞内有着很大的差别。例如在酵母细胞里,有些细胞周期调控蛋白不到100个分子,而糖基酶则可能有200万个分子。据估计,蛋白质之间量的差别,竟可达106数量级。蛋白质组研究的特点是要同时分析各种各样的蛋白质,因此需要排除巨量的蛋白质类型的干扰,把微量的蛋白质类型从蛋白质混合物中鉴定出来。现有的蛋白质组研究技术,尚不能令人满意地完成这一任务。
简而言之,蛋白质组研究对技术的依赖性和要求远远超过基因组学。蛋白质组学的研究技术目前还有很多不完善之处,许多新技术正在研发之中。因此,蛋白质组学的发展是受技术限制的,也是受技术推动的。
如果说未知世界是一个无边无际的海洋,那么我们的知识就是这海洋里一个小小的岛屿。随着科学的进步,知识的岛屿会不断地扩张。但我们同时会发现,环绕着知识岛的未知领域也在增长。我们的研究可以逐渐地扩大人类知识的领地,但永远不能穷尽宇宙的奥秘。基因组也好,蛋白质组也好,都不会是人类认识生命的终点。
作者: 吴家睿
来源: 科学杂志
与基因组研究的战略一样,科学家们已不再局限于对个别蛋白质进行研究,而是对细胞或组织内成千上万的蛋白质同时进行研究,即蛋白质组学(proteomics)。2001年2月15日,英国《自然》周刊在发布人类基因组框架图时,同期登载了一条关于人类蛋白质组研究组织(Human Proteome Organization,HUPO)成立的消息,标题就叫“现在是蛋白质组了”。但科学家们也意识到,蛋白质组研究要比基因组研究复杂得多。
剪不断理还乱的“怪圈”
存在于细胞核里的DNA构成了基因组。基因组作为遗传信息的载体,最根本的特征就是稳定不变。对单细胞生物而言,不论在什么样的生长条件下,其基因组始终保持不变。对多细胞生物来说,每一个个体的基因组,在构成个体的不同种类的细胞里都是一样的,知道了个体内某一细胞内的基因组就知道了该个体所有细胞的基因组。然而对于蛋白质组而言,由于蛋白质是生命活动的主要执行者,不同类型的细胞或同一个细胞在不同的活动状态下,其蛋白质组的蛋白质种类构成却是很不一样的。
所以,蛋白质组与基因组的一个重要差别就是蛋白质组具有多样性。这种差别要求我们对“蛋白质组”的概念要进行仔细的分析。目前蛋白质组比较公认的定义是:一个基因组内所有基因表达的全部蛋白质。这种定义从字面上容易理解,但在实际中却很成问题。
任何一种生物的基因组,都是由不编码蛋白质的核苷酸序列和编码蛋白质的核苷酸序列(基因)所组成。基因通常只是基因组的一小部分,例如编码人类蛋白质的核苷酸序列大约占人类基因组的2%。要想从混杂有大量非编码核苷酸序列的基因组中找出基因,如同沙里淘金。基因组研究的结果表明,一个基因组拥有的“基因”数目是由两部分组成的:通过实验证明确有蛋白质产物的真实基因、根据起始密码和终止密码序列所确定的潜在基因。生物学家们把这两类基因都称为“开放阅读框”(open reading frame,ORF)。因此,一个基因组内的基因数目通常是指ORF的数目。
当一个基因组的全序列测定之后,确定其含有的ORF就成为了主要任务,称为基因注释。目前用于基因注释的方法还有较高的出错率,尤其对于那些存在不连续基因(即在一个基因内插有非编码的核苷酸序列)的复杂基因组,出错的问题更为突出。此外,这些ORF是否与蛋白质存在一一对应关系也是一个问题。一方面,人们已经发现有许多“假基因”(pseudogene)的存在,这些假基因有和真基因相同的ORF,但却从不表达。另一方面,由于存在RNA水平上遗传信息的加工——mRNA编辑(RNA editing),以及蛋白质水平上遗传信息的加工——蛋白质剪接(protein splicing),许多蛋白质很难找到直接对应的ORF。如果我们不能确定基因组的“所有”基因,我们从何知道蛋白质组的“全部”蛋白质?
显然,确定基因数目最可靠的方法是通过研究蛋白质组来进行。据最新统计,人类基因组拥有的基因数目大约是在3万到4万个之间。如果能够把人体252种细胞内的全部蛋白质都给鉴定出来,那么我们就有可能真正知道人类基因组的所有基因。但是这样一来,基因组和蛋白质组形成了“循环定义”:蛋白质组是以基因组拥有的所有基因的表达产物来构成,而所有基因的确定又必须通过蛋白质组来给予肯定。可见,要找出一个生物体基因组的所有基因和相应的全部蛋白质,是一项非常困难的任务。
没有标尺的度量
不同生物的基因组大小有着很大的差别。例如芽殖酵母基因组有1200万碱基对,而人类基因组则为32亿碱基对。基因组不论大小,其核苷酸的数量总是很明确的。然而,对蛋白质组来说,蛋白质的种类究竟有多少就很难说了。上面说过,蛋白质组可以被定义为基因组的基因表达的所有蛋白质,但这一定义没有考虑蛋白质的化学修饰。细胞内的大部分蛋白质通常在合成结束后,都被进行过化学基团的修饰,如磷酸化、糖基化、酰基化等等。修饰过的蛋白质的物理化学性质和生物学功能,均不同于未修饰的蛋白质。如果把一个修饰蛋白视为一种新的蛋白质,那么蛋白质组的蛋白质数量,将远远大于相应的基因组的基因数量。在这个意义上,人们估计人类蛋白质组的蛋白质种类大约在20万到200万之间。显而易见,蛋白质组蛋白质数量的估计是非常模糊的。
从蛋白质修饰的角度来看,不仅仅是蛋白质种类大大增加,更重要的是,由于不存在度量修饰蛋白质种类的尺度,人们也许永远不能像确定基因组核苷酸序列那样,准确地统计出生物体内蛋白质组的蛋白质总数。如果说表达产生的蛋白质种类可以根据基因的数目来确定,那么修饰形成的蛋白质种类只有依靠对蛋白质的直接研究来判定。生命是一个永远处于变化中的开放系统。既然蛋白质的修饰和生命活动密切相关,因而这种研究是没有止境的。从这种意义上来说,对基因组核苷酸序列的测定是一种“有限”的工作,而对蛋白质组蛋白质种类的确定则是一种“无限”的工作。
四维尺度下的研究
DNA作为遗传信息的载体,以双螺旋的形式存在于细胞核内,在细胞一代代的繁衍过程中其碱基序列始终保持不变,因此在测定基因组的DNA序列时不需要考虑时空的影响。而在蛋白质组的研究中,时间和空间的影响都是不可忽略的。
首先,在个体发育的不同阶段或细胞的不同活动时期,细胞内产生的蛋白质种类是不一样的。此外,不同蛋白质的寿命也不一样。有些蛋白质在合成后成为细胞的结构成分,相当稳定;而有些蛋白质在产生后被用来进行某种细胞活动,比如基因转录的调控,工作一旦完成就被迅速降解。因此,在分析蛋白质组的蛋白质成分时,需要把时间作为一个重要的参数。对于在不同时间过程中蛋白质组的组成成分的比较分析——差异蛋白质组研究,已成为当前蛋白质组学的主要内容。
蛋白质的另一个重要特征是,不同的蛋白质通常分布在细胞的不同部位,它们的功能与其空间定位密切相关。要想真正了解蛋白质的功能,通常还需要知道蛋白质所处的空间位置。更为重要的是,许多蛋白质在细胞里不是静止不动的,它们在细胞里常常通过在不同亚细胞环境里的运动发挥作用。例如细胞周期的调控过程、细胞的信号转导和转录调控,都依赖于蛋白质空间位置的变化和运动。因此,蛋白质组学中又派生了一个与空间紧密相关的新研究领域——亚细胞蛋白质组学。这种亚细胞蛋白质组可能是细胞器蛋白质组,如高尔基体蛋白质组;也可能是比细胞器还要小的组分,如核膜的蛋白质组。
永 不 孤 独
在不了解基因组序列的情况下,人们曾经推测,生命的复杂程度是由基因组的基因数量来决定的。也就是说,生命的复杂程度越高,其基因组拥有的基因数目越大。但随着各种生物的基因组全序列的测定,科学家们认识到情况并非如此。线虫(C. elegans)是一种低等动物,其基因组的基因数为1.9万多个。而人类基因组框架图的完成表明,人基因组的基因总数仅仅比线虫多1.5万个左右,远不是预期的10万到15万。刚刚完成的水稻基因组框架图更让人吃惊,其基因总数在4.6万到5.5万之间,比人的基因还要多。显然,基因数目与生命的复杂程度没有直接的相关。那么,在生命从简单到复杂,从低级到高级的进化过程中,究竟是什么因子体现了这种变化?
随着功能基因组研究的进展,人们已逐渐意识到,这种因子可能就是不同基因的产物蛋白质之间“排列组合”的复杂程度。也就是说,原始生命体中蛋白质之间的相互关系比较简单,而高级生命体中蛋白质之间则具有较为复杂的关系网。
蛋白质组具有一个不同于基因组的重要特性,即蛋白质彼此间有着直接的影响。某一个蛋白质功能的实现,通常离不开它与其他蛋白质之间的相互作用。也许可以说,不与其他蛋白质发生作用的“孤立蛋白质”根本就不存在。过去,科学家们因研究手段的限制,只能研究数个蛋白质之间的相互作用,而今天通过蛋白质组学的新方法,可以同时研究成千上万个蛋白质之间的相互作用。例如,芽殖酵母基因组全部ORF的表达产物——共6000多个多肽,彼此间可能存在的作用情况已进行了分析,从中发现了9百多种可能的相互作用,涉及到1000多个蛋白质。科学家为这一类型的研究专门发明了一个新的名词——“相互作用组”(interactomes)。
相互作用组研究可以分为两类。第一类是研究蛋白质相互作用的网络。细胞内的许多活动如信号转导等,都是通过一个复杂而广泛的蛋白质相互作用网络实现的。相互作用组的另一类研究是蛋白质复合体组成的分析。蛋白质复合体通常可以分为两种。一种是结构型的蛋白质复合体,如核孔复合体,这一类通常比较稳定?鸦另一种则是功能型蛋白质复合体,例如负责转录的转录蛋白复合体、负责DNA复制的复制蛋白复合体等,这类复合体只有在执行功能时才聚合在一起,任务完成后就解离。当前,相互作用组研究已成为蛋白质组研究领域的一个重要内容。
技 术 的 烦 恼
基因组的物质基础是DNA,它由两条螺旋状生物大分子链组成,其中每一条链都由成千上万的核苷酸连接而成,这些核苷酸仅含有四种类型的碱基。基因组研究的核心任务,就是要测定DNA链上四种碱基的排列顺序。因此,DNA测序技术是基因组研究中一个最基本和最主要的工具,这样一种单一的技术就能胜任基因组的研究工作。但是,在蛋白质组研究中,需要的研究技术远远不止一种,并且技术的难度也要大于基因组研究技术。
首先,由于蛋白质是由20种化学性质各异的氨基酸所组成,因此不同蛋白质的物理化学性质差别很大。例如,有些蛋白质易溶于极性溶剂,有些蛋白质则难溶于极性溶剂;有些蛋白质较稳定,有些蛋白质则易降解。此外,蛋白质的各种修饰和相互作用更增加了蛋白质的复杂性。仅仅通过一两种技术,显然不可能完成对蛋白质组内成千上万种不同性质的蛋白质的检测。
其次,不同种类的蛋白质的量在细胞内有着很大的差别。例如在酵母细胞里,有些细胞周期调控蛋白不到100个分子,而糖基酶则可能有200万个分子。据估计,蛋白质之间量的差别,竟可达106数量级。蛋白质组研究的特点是要同时分析各种各样的蛋白质,因此需要排除巨量的蛋白质类型的干扰,把微量的蛋白质类型从蛋白质混合物中鉴定出来。现有的蛋白质组研究技术,尚不能令人满意地完成这一任务。
简而言之,蛋白质组研究对技术的依赖性和要求远远超过基因组学。蛋白质组学的研究技术目前还有很多不完善之处,许多新技术正在研发之中。因此,蛋白质组学的发展是受技术限制的,也是受技术推动的。
如果说未知世界是一个无边无际的海洋,那么我们的知识就是这海洋里一个小小的岛屿。随着科学的进步,知识的岛屿会不断地扩张。但我们同时会发现,环绕着知识岛的未知领域也在增长。我们的研究可以逐渐地扩大人类知识的领地,但永远不能穷尽宇宙的奥秘。基因组也好,蛋白质组也好,都不会是人类认识生命的终点。
作者: 吴家睿
来源: 科学杂志