一个正在崛起的新学科——蛋白质组学
武汉华美
一、概述
随着人类基因组计划的实施和推进,生命科学研究已进入了后基因组时代。在这个时代,生命科学的主要研究对象是功能基因组学,包括结构基因组研究和蛋白质组研究等。基因组学虽然在基因活性和疾病相关方面提供了有力根据,但基因的表达方式错综复杂,同样的一个基因在不同条件下、不同时期可能起到完全不同的作用。因此,研究生命现象,阐释生命活动的规律,只了解基因组的结构是不够的,还需对生命活动的直接执行者——蛋白质进行更深入的研究。一个以“蛋白质组(proteome)”为研究对象的生命科学时代已经到来。
蛋白质组(proteome)是澳大利亚学者Williams和Wilkins于1994年首先提出,表示“一个细胞或一个组织基因组所表达的全部蛋白质”,是对应于一个基因组的所有蛋白质构成的整体。
蛋白质组学(proteomics)是指应用各种技术手段来研究蛋白质组的一门新型科学,其目的是从整体的角度分析细胞内动态变化的蛋白质组成成分、表达水平与修饰状态,了解蛋白质之间的相互作用,揭示蛋白质功能与细胞生命活动规律。其研究内容主要包括:鉴定特定细胞、组织或器官的蛋白质种类(蛋白质组全谱鉴定)、特定条件下蛋白质的表达量变化研究(定量蛋白质组学)、明确蛋白质在生命活动中执行的功能(功能蛋白质组学)、揭示蛋白质之间的复杂相互作用机制(相互作用蛋白质组学)、描绘蛋白质的精确二维、三维以致四维结构(结构蛋白质组学)、以及蛋白质翻译后修饰研究(修饰蛋白质组学)。
蛋白质组概念的提出,标志着生命科学的一个崭新时代——蛋白质组时代已经开始,它是继基因组研究之后的又一“大科学”,即以蛋白质组为研究对象,通过对基因表达产物——蛋白质进行整体、动态、定量水平上的研究来阐述环境、疾病、药物等对细胞代谢的影响,并分析其主要作用机理、解释基因表达调节的主要方式。
二、蛋白质组学研究方法概述
1. 样品制备
样品制备是蛋白质组研究的第一步,直接影响到后期的研究结果。样品来源不同,制备的方法也有所不同,但都会遵循以下几个原则:尽可能采用简单方法进行样品处理,以避免蛋白丢失;细胞和组织样品的制备应尽可能减少蛋白的降解;尽可能提高样品的溶解度;防止加入人为修饰。如果组织中只有一类蛋白质是有意义的,在样品制备过程中进行预分级制备是必须的。样品预分级主要是根据蛋白质的溶解性和蛋白质在细胞中不同的细胞器定位进行分级的。样品分级不仅可以提高低丰度蛋白的上样量和检测率,还可以针对某一细胞器的蛋白质组进行研究。
对临床组织样本进行研究,寻找疾病标记,是蛋白质组研究的重要方向之一。但临床样本都是各种细胞或组织混杂而且状态不一的,如肿瘤组织中发生癌变的往往是上皮类细胞,而这类细胞在肿瘤中总是与血管、基质细胞等混杂。所以,常规采用的癌和癌旁组织或肿瘤与正常组织进行差异比较,实际上是多种细胞甚至组织蛋白质组混合物的比较。最近,在组织水平上的蛋白质组样品制备方面已有新的进展,如采用激光捕获显微切割(laser capture microdissection,LCM)方法可直接在显微镜下从组织切片中精确分离特定的细胞或细胞群。此外,还有高丰度蛋白去除技术、自由流电泳技术(FFE)等。
2. 样品分离
双向凝胶电泳是较早发展起来的一项分离技术,其原理是:第一向基于蛋白质的等电点不同用等电聚焦分离(IEF),第二向按分子量的不同用SDS-PAGE分离,把复杂蛋白质混合物中的蛋白质在二维平面上分开。但这种方法存在较多缺点,如分辨率较低,重复性低,对低丰度蛋白、膜蛋白、碱性蛋白的分离与检测效果较差,难以规模化、自动化。
另一种新的分离技术为色谱分离技术,包括液相色谱和气相色谱。在蛋白质组领域主要使用高效液相色谱(HPLC)。HPLC是以经典的液相色谱法为基础,引入气相色谱法的理论与实验方法,流动相改为高压输送,采用高效固定相及在线监测等手段发展而成的分离方法,它可以单独使用,或者与质谱仪联用(HPLC-MSM),是目前蛋白质组学中样品分离的主流方法。与传统的2-DE相比,HPLC具有通量大、灵敏度高、重复性好、容易实现自动化等优点
3. 蛋白质鉴定技术
对分离的蛋白质进行鉴定是蛋白质组学研究的又一项重要内容。传统使用的方法如蛋白质微量测序、氨基酸组成分析(如Edman 降解法)费时费力、通量极低,不容易实现规模化和自动化,这对基于“组学”水平研究的蛋白质组鉴定是无法满足的。因此,在相当一段时间,蛋白质组学的进展缓慢不前。生物质谱技术的发展和不断成熟极大地促进了蛋白质组学的发展。
质谱技术是目前蛋白质组研究中发展最快、也最具活力和潜力的技术。其基本原理是样品分子离子化后,根据分子的质荷比(m/z)的差异来分离并确定样品的分子量。质谱技术在20世纪初就已经产生,多用于无机物或有机物小分子的鉴定,直到20世纪80年代末随着“软电离”技术(ESI、MALDI)的出现而进入生物大分子(如蛋白质)的鉴定领域。
它们具有高灵敏度和高质量检测范围,使得在pmol甚至fmol水平上准确地分析分子量高达几万到几十万的生物大分子成为可能。目前,用于蛋白质组鉴定的质谱主要有两种:电喷雾质谱(ESI-MS/MS)和基质辅助激光解析/电离飞行时间质谱(MALDI-TOF-MS)。质谱技术主要有灵敏度高、通量大、快速、能同时提供蛋白的鉴定、定量信息等优点。当前蛋白质组研究的核心技术就是LC-MS/MS,即首先通过高效液相色谱实现样品初步分离,从而降低样品复杂度,然后利用质谱对蛋白质逐一进行鉴定。
4. 定量蛋白质组学
许多蛋白质组学实验的目的是鉴定在两个或者更多个相关样品中丰度有所变化的蛋白质。往往这些表达量存在显著差异的蛋白与某种生物机制有关,比如细胞类型、所处的发育阶段和细胞状态的不同,细胞对环境变化反应的不同,都会导致蛋白质组的不同。蛋白质组的变化也和疾病发生相关,一旦这些蛋白质被鉴定,有可能成为疾病的标志性蛋白(biomarker)。准确的蛋白质定量是蛋白质组学的一个重要环节。
目前主要依赖质谱技术同时实现蛋白的鉴定和定量。大致可以分为标记(label)定量和无标记(label-free)定量。标记定量方法是指用不同的化学试剂或同位素作为标记物,对不同样品进行区别标记,然后混合、经过LC-MS/MS分析。目前常用的标记定量方法有SILAC(Stable isotope labeling with amino acids in cell culture)、ICAT、iTRAQ等方法。
不同的定量方法有各自的优缺点。比如SILAC标记效率较高,可以达到100%,但其只能针对细胞进行标记。ICAT具有广泛的兼容性,但其只能对含有半胱氨酸的肽段标记,且只能对两个样品标记。iTRAQ是美国应用生物系统公司(ABI)于2004年开发的一项蛋白质定量技术。该技术因具有较高的标记效率、分离能力强、分析范围广、自动化程度高、定量结果准确等优点被人们广泛应用,该项技术是目前最流行的定量技术。无标记定量不使用同位素标记等信息,而是直接比较两个或多个样品间肽段的信号强度(intensity or XICs),或直接比较蛋白鉴定到的谱图数(spectra counting),这种方法的优点是不受样品数限制,理论上一次可以比较无限多个样品,缺点是对实验、质谱检测等重复性要求较高。
总结当前涉及到的定量方法,各种方法各有其优缺点,研究人员要根据具体需要选择。但都面临一个重要问题就是定量结果可重现性较低,动态范围低。当然,这很大程度上与质谱性能相关。因此,更准确、更稳定的定量方法有待出现。
5. 蛋白质组研究的新技术——目标蛋白质组学
由于传统的基于shot-gun技术具有其固有缺陷,比如动态范围小,可重现性差,谱图可解析率低,定量结果不准确。一种新的技术应用而生,即目标蛋白质组研究技术。它主要分为两种技术,MRM(Multiple Reaction Monitoring)和SWATH(Sequential Windowed Acquisition of all Theoretical fragment ions)。
Shot-gun全景式蛋白质鉴定策略(常规LC-MS/MS)存在的两个主要问题是鉴定深度不够、定量可重现性较差。 针对这一问题,苏黎世理工学院分子系统生物学研究院的Ruedi Aebersold等于2008年开发了MRM技术。MRM可以对预先定义的蛋白(目标蛋白)进行鉴定和精确定量,大大增加了定量的动态范围,使那些用传统方法无法鉴定到的较低丰度蛋白的检测及定量成为可能。
由于这种技术不会对所有进样蛋白记录,而只对预先设定的几个蛋白(肽段)记录,因此,其一次实验只能检测很少的蛋白,通量较小。 针对这一问题,Ruedi Aebersold等和AB-Sciex公司于2012年在美国质谱年会(ASMS)上联合推出了一项新技术——SWATH。
SWATH采集模式是一种新型的MS/MS扫描技术。它将扫描范围划分为以25Da为间隔的一系列区间,通过超高速扫描来获得扫描范围内全部离子的所有碎片信息是MS/MSALL的扩展。这项技术既继承了MRM的高灵敏度定量和较大的动态范围,同时也延续了shot-gun策略的高通量特点。一次实验即可获得完整的定性定量结果,不需要进行方法优化,SWATH技术的出现,可以说又是蛋白质组学研究领域的一大颠覆,为蛋白质组学研究带来一场革命性变革。
6. 蛋白质组学研究中的生物信息学
生物信息学是随着人类基因组计划、计算机技术、网络技术等的发展而诞生的一门新型学科,是蛋白质组学的一个重要平台。生物信息学以计算机为工具对生物信息进行储存、检索和分析的科学。它通过综合应用数学、统计学、计算机科学以及生物学的技术来分析大量而复杂的生物学数据,从而揭示生物学的奥妙。
生物信息学是蛋白质组学研究的一个不可或缺的部分,其在蛋白质组学的研究中有两个重要应用:一是通过已知测序的全基因组序列预测对应全蛋白质序列、建库;二是通过和已知蛋白数据库比较,解析由LC-MS/MS系统采集的海量谱图数字。此外,生物信息学在蛋白质功能预测、复杂的相互作用预测以及蛋白质的二级、三级结构的预测扮演着重要的角色。
蛋白质组学数据库是蛋白质组研究水平的标志和基础。瑞士的UNIPROT数据库是蛋白质组学领域最权威的数据库,其中的SWISS-PROT收录的蛋白都经过人工验证,可以直接为科学家使用。此外,还有最权威的结构蛋白质组数据库PDB、相互作用数据库STRING等。它们在蛋白质组学的研究中发挥着重要的作用。除此之外,基于LC-MS/MS的研究方法,需要开发大量分析数据的软件,如基于数据库检索的蛋白质组鉴定,各种标记、无标记蛋白质组定量的数据分析,都需要可靠的算法和好用的软件来实现。生物信息学在蛋白质组学研究中正发挥着越来越重要的作用。
三、国内外研究现状
尽管“蛋白质组”这一词在1994年提出,但相关研究可以追溯到十九世纪90年代甚至更早。在基因组计划提出之前,就有人提出“蛋白质组计划”,当时称为Human Protein Index计划,旨在分析细胞内的所有蛋白质。但由于当时技术不成熟、蛋白质本身的固有的复杂性和动态性,这一计划一直被搁浅。直到90年代中后期,由于各项技术的日渐成熟,尤其是质谱技术在生物领域的大规模应用,蛋白质组学研究得到了迅速发展。
人类蛋白质组组织(HUPO)是一项通过国际合作来促进蛋白质组新技术发展的国际性科学组织。其使命是通过国际合作促进技术发展,从而更好地了解人类疾病、促进蛋白质组学的发展。HUPO于2003年12月首次提出人类蛋白质组计划(HPP)。这是继人类基因组计划(HGP)后的又一项大规模的国际性科技工程之一。
其中,由我国科学家贺福初院士等牵头发起的“人类肝脏蛋白质组计划”已经取得了一系列阶段性进展。近年来HUPO又提出“人类染色体蛋白质组计划(C-HPP)”,它和疾病蛋白质组计划组成了人类蛋白质组计划。C-HPP的首要任务就是解析人类每条染色体上的编码蛋白基因所编码的全部蛋白。其中我国承担分析#1,#8和#20号染色体的工作,目前已经取得了一些成果。
随着蛋白质组学研究浪潮的高涨,我国也涌现出一系列较有实力的科研单位、公司。其中比较知名的有由贺福初院士带领的北京蛋白质组研究中心(BPRC)、由杨芃原教授带领的上海复旦生物医学研究院,以及一些蛋白质组技术相关公司,如华大基因、上海中科新、武汉华美生物、杭州景杰、上海博苑、广州俊辉等,为我国蛋白质组学的研究人员提供了专业、便利的技术服务平台。
尽管蛋白质组学的发展迅速并日渐成熟,但依然有许多瓶颈和技术难题有待攻克。比如,当前主流的LC-MS/MS技术,其解析度低(仅有约30%)、可重现性低等问题一直得不到解决。虽然目前已经有许多物种的大量蛋白质得到鉴定,但其在细胞生命活动进程中所扮演的功能、复杂的蛋白质相互作用以及更高级的二级、三级、四级结构仍有待更新更稳定的技术来攻克。目前,蛋白质组学的研究只是冰山一角,蛋白质组学这一学科的研究才刚刚开始。