转录组学和蛋白组学研究

互联网2021-11-02

1200

表达分析、分子生物学研究以及新的分析软件工具将会推进生物系统水平的研究。

文/EricChan西雅图RosettaBiosoftware数据分析师译/李亚萍

在基因表达研究中，广泛的基因分析可以对生理状态或者是一个细胞表型有关的基因进行系统监测。可以利用高通量分析在数据输出和获取数据快捷两方面的优势，对药物发现过程中的药靶候选基因进行鉴定，在假设驱动的研究中，该技术也提供了必须的系统背景知识。一旦微阵列技术成熟，研究人员就能进行转录组研究，寻找感兴趣的标记基因。正如肿瘤基因表达对各种来源的组织和患者存活结果的相关性分析例子一样，通过微阵列技术进行的基因表达分析研究将在生物标记发现过程中继续扮演重要作用。

尽管微阵列的分析能力很强大，转录组学研究平台只包括那些适应生长条件变化细胞的转录物。大多数细胞内和细胞间的生物化学过程都会受到蛋白质-蛋白质或者其他蛋白质-底物相互作用的影响。蛋白质组水平的基因表达分析提供了一个快速的可控制生物合成的快照过程，其中大部分是由转录组学平台调控的。同时，转录组本身通过表达的蛋白质或者是细胞生化状态下其他的变化，进行反馈控制。

换句话说，基因表达不仅仅是从转录组到蛋白质组的单向流动，而是两者的相互连接。对这种功能调控的了解通常只限于特殊的信号途径，或者是新陈代谢途径。要了解转录组和蛋白质组之间的相互调控作用，需要对RNA和蛋白质的表达进行同步监测。

正如RNA可作为部分生物学功能的酶反应的效益物一样，蛋白质也是大多数生物学功能的效益物。因此，蛋白质水平广泛的基因组分析是基因表达更直接的反映。而且，根据基因组范围设计的商业化微阵列靶标集合很有限，可能无法为近期哺乳动物的发现提供足够的转录物，因为转录物的数量可能要比基因的数量多10倍或者更多。

质谱技术的进展，使得定量的蛋白组学研究成为可能。然而，当细胞适应了转录水平（例如，转录因子结合、染色质结构改变）、转录后（例如，核与质的输出或者是信使RNA的剪接，特定的核糖体负荷）、翻译后（蛋白降解和输出）的精细调控机制后，转录物和蛋白质丰度测量结果可能会不一致。因此，定量的转录物和蛋白质丰度测量可作为相互的标准，为高通量分析得出的基因表达数据做出合理的解释。正如蛋白质和RNA之间类似点可以增加我们对新的生物标记的信任度一样，差异也能暗示我们“其他的转录后调控结合点可作为治疗的候选靶点”。

研究现状

通过分析细胞培养和细菌、酵母、小鼠以及人类的整体动物模型的mRNA和蛋白质丰度情况，可以实现转录物和蛋白质表达的整体定量分析（如表1）。在蛋白组学分析过程中，一些研究选择了双向凝胶电泳(2-DE)分析蛋白质混合物。要么是对不同的凝胶染色，要么是让不同的细胞与不同的染料相结合，通过斑点染色亮度可以看到蛋白质的亮度。随后用质谱仪对分离出的定量凝较斑点进行鉴定，与转录组学分析不同的是，双向凝胶电泳分析的鉴定结果与定量分析是散耦合（de-coupled）。

双向凝胶电泳的一大优点是，它能将翻译后已修改的蛋白质分解为一连串的斑点，当与单个的母本转录物相比较时，它提供的信息就会派上大用场。依照这个步骤，就可以将化学诱导后的若干人类细胞培养模型的蛋白质组和转录组信息区别开来。总之，蛋白质和转录物之间的相关性很弱��转录组学中的测量误差被认为是由微阵列（与TaqMan定量实时PCR有关）、2-DE本身的蛋白质染料饱和染色、共迁移造成的抑制作用，与低丰度蛋白质随后的显像和定量，鉴定一样困难。

液相色谱法(LC)是作为一种替代2-DE的蛋白质分析方法而出现的。LC-MS分析是典型的“自下而上(Bottom-Up)”分析方法，通常要用特异的蛋白酶（如胰岛素）将蛋白质裂解为肽段。与2-DE不同，LC-MS对肽的定量和鉴定是同时进行的，例如，根据离子阱质谱仪碰撞诱导裂解CID)过程中产生的裂解谱，可以选择定量的MS峰(m/z)用于鉴定，通过肽片断的信息推测对应蛋白质的定量信息。

到目前为止，在已发表的整合分析文章中，大多数LC-MS分析是与稳定同位素标记联合使用的，尤其是ICAT试剂。然而，与非标签方法一样，18O/16O和15N/14N标记近期有可能替代ICAT标记法。目前，在出版的ICAT标记的LC-MS转录组学-蛋百组学整合分析的文章中，已经增加了与2-DE有关的蛋白质组范围。在最近的一次小鼠模型研究中，在将150份mRNA-蛋白质对进行表达水平和转录水平的比较后，发现蛋白水平的最佳预测力为41%(r=0.64)。通过相似分析，与初期的整合分析相比较的相关度已经很高了，对此的解释是��随着技术的成熟，蛋白质组和转录组的范围都有所增加。值得注意的是，蛋白质组范围很可能会随着最近的非标记定量分析的进展而增加，该技术利用了MS的微量级灵敏度。

在将蛋白质组和多核糖体转录组与预期的核糖体转录物相比较后，研究人员发现，原来预期的核糖体转录物翻译很活跃，并且与对应蛋白质组的关系要比总的转录组更接近。在对JurkatT细胞的一项研究中，监测的11个蛋白质-转录物对，只有一对蛋白质和多聚核糖体mRNA变化呈现出一致性。

蛋白质与多核糖体，蛋白质与总的mRNAs之间表现出的较高的一致性与酵母中观察到的完全不同丰度的转录物、ORF长度和在不同翻译效率下的密码子适应指数相同，因此影响了合成蛋白质产物的丰度。核糖体装载调控可能是机制之一，能解释“观察到的转录物和蛋白水平不一致现象”，其实是对分子生物学中心法则的挑衅。作为翻译的一种抑制机制，microRNAs也展示了另一种可能性。

虽然采用的技术不同，迄今为止公开发表的整合分析都指出了转录组学和蛋白组学的重要性。转录组学或蛋白组学通常只考虑调节系统和分解作用平衡态的净效应，实际上，出现的不一致性只是合成与降解两种替换过程中的一种反映。科学家可能对变化过程中的机制更感兴趣。

面临的挑战

其实，很难对蛋白组学和转录组学表达的差异性进行细微的比较。在基因组范围，微阵列为目标转录物提供了有限的丰度测量，但是典型的质谱分析可能与通常的2-DE操作一样，无法检测出可溶蛋白，尤其是那些高丰度和非极限pI值的蛋白；另一方面，即使有多维的液相色谱分析，LC-MS仍然会遭遇肽段共洗脱(LC的局限性)和采样过疏（扫描速度和灵敏度局限性）的限制。

此外，商业化基因组微阵列研究还没有完成，很难对蛋白组学和转录组学进行比较，因为分析本身会偏向在蛋白水平上高丰度或者其他更容易检测到的基因上。

蛋白质与转录物的相互参照是一个主要障碍。转录组学方面，拼接亚型的存在会导致多重探针与同一个目标杂交，导致错误的定量。即使我们假设“在蛋白质序列数据库中，这些亚型已经被正确的鉴定为单独的路径”，拿转录组亚型与对应的蛋白质亚型比较，仍是困难重重。异源序列数据库的利用也是一个难题：微阵列靶子通常都是用NIH的基因序列数据库（GenBank）和NCBI参考序列（RefSeq）标示符进行注解，蛋白组学通常是用编辑更少的NCBI免费数据库蛋白质搜索引擎EntrezProtein(NCBInr)或者是国际蛋白索引(IPI)数据库注解。虽然IPI数据库为更多内容的数据库（例如RefSeq和Swiss-Prot）提供相关参照，但那些相关参照通常是不完善的，并且IPI数据库通常将较小的序列变异体排除在外。

除了以上提到的与整合分析有关的技术难题之外，生物学研究系统也面临挑战。根据序列和亚细胞定位，mRNA的半衰期寿命从几分钟到几小时；受N端残基的影响，蛋白质部分寿命范围从几分钟到几天。因为典型的转录组学和蛋白组学分析一次只分析一个点，所以缺乏足够的分辨力将新合成的转录物或蛋白质与以往积累下来的部分区别开。

另一方面，蛋白质和转录物表达之间的差异，可能会导致细胞的蛋白质组与转录组不一致。转录后，特殊序列或者是次级折叠结构可能会影响翻译率，后者可能影响mRNA衰退，与核糖体的装载和加工一样，这些转录后机制都将证明蛋白质合成中的变化。总之，合成的蛋白质也可能会遭受翻译后修饰，这些修饰将管理蛋白质的降解或分泌。

正如中心法则预测的那样，在转录物和蛋白质水平，如果只能通过严格的转录调控去控制蛋白质的合成，细胞是不太可能选择精细调节机制的。当点对点进行比较时，蛋白质和转录物之间的一致性通常很弱，正如在酵母中显示的那样，特定生物学路径的组成基因的一致性或不一致性会更强。这些观察说明了“从个体基因座的局部分析扩展到功能途径系统分析”的重要性。

转录组学和蛋白组学都是了解研究系统的生理化学状态的有用工具。当然，没有一种工具可以为系统提供完全的覆盖范围及相应的精确度。问题的核心，不是用工具找出mRNA和蛋白质之间一对一的相互关系，而是要用它们区别出真阳性和假阳性，即区别出真正的mRNA-蛋白质一致性或者是不一致性。没有这些整体分析，就无法观察到真正的mRNA-蛋白质不一致性，并且这些不一致性要比一致性更吸引科学家，因为它们透露出的更多的转录后干涉情况，可以进一步去研发治疗方法。

哺乳动物昼夜节律钟的不一致就是时移不一致的一个例子，调节蛋白如Period(mPER)在蛋白质和转录物表达之间显示了4~8小时的延迟。总体不一致的一个例子是Ras/Akt信号在成胶质细胞瘤中显示出的不一致，其中总mRNA变化很小。更多的变化发生在翻译起始的核糖体装载期间，依次更改了蛋白质性质。

综合数据

转录组学和蛋白组学分析要想整合成功，需要有效和精确的相互参考。研究人员需要灵活的定义自己的基因图谱，但也可能需要选择采用预定义的针对蛋白质的目标图，当新的基因组、转录组和蛋白组序列出现，研究人员需要及时注册更新，并且删除错误的信息。

高通量转录组学和蛋白组学分析的数据量要求根据用户定义的标准来过滤数据，例如测量性质。在转录组学分析之后进行定量的蛋白组学实验，废弃不可靠的定量测量将会减少假性前导物的量，尤其是在蛋白组学水平。误差模型如那些建立在像RosettaResolver或RosettaElucidator系统的产物，最适合这种处理。实际上，过滤不是“万能方法”，还是应该根据平台（如微阵列或质谱仪）和实验设计进行具体的操作。

可是，有时候会出现这种情况：应用显著性概率P值阈值作为转录组学或蛋白组学数据性质典型标准，真正没有改变的基因表达数据将被忽略掉。如果基因表达只在一个水平上有变化，作为转录后调节的目标就可能会增加假阴性率。从这个角度看，对过滤的背景进行指导对研究人员是有帮助的。

蛋白质数据面临的另一个问题是，不能区别出蛋白质剪接变体，或是无法鉴定出肽序列。只有获得新的测序信息，才可能解决这些问题，预定义分析过程或其他“一次点击”方法能让科学家对已有的MS/MS数据进行重分析（如，SEQUEST），并且能将任何有关定量蛋白质更新信息（包括新添加的、删除或改动）告知研究人员。

接下来，在转录组学和蛋白组学水平上对数据进行处理，需要对“转录物和蛋白质注解和定量测量的数据”进行比较分析。典型的微阵列分析有一个有限的靶标集――昂飞、安捷伦和美国应用生物系统公司都将他们的靶标与对应的RefSeq序列标识符直接进行相互参照。很多公司都提供预订服务，例如Inpharmatica公司的Blu-Chip作为一种商业化解决方案，在最新的序列信息中有规则的查找靶序列，对蛋白质对应的基因靶标进行定位作图。

一个使用更广泛的工具是EBI的国际蛋白索引(IPI)，该索引是蛋白组学分析的理想工具，可以提供广泛的基因组（具有最小冗余）范围。然而，EBI为其他的数据库（如RefSeq和Swiss-Prot）提供的相互参照通常是不完整的，在建立转录物-蛋白质对的时候会产生数据流失。目前，提出了一个两次流程相互参照程序，例如，根据公开的数据库，在第一流程中无法获得从蛋白质到基因的相互参照的高质量MS/MS谱，就可以在最新的基因组序列信息中进行搜索，去获取蛋白质序列数据库中没有的那部分拼接变体结果。

根据电荷态预测的一致性，可以用算法去评定MS/MS谱，离子流量和信噪比可能会有助于数据外存储器的自动选择，以便在基因组数据库中进行BLAST搜索。在两个流程之间也能进行肽段的翻译后修饰研究。人们是根据峰和同位素膜性质来评定高质量的MS谱，但是如果得到的MS/MS谱不好，就有可能会被认为是中性脱失，例如，磷酸盐、甘露糖或其他的翻译后改变，用MS3碎片可以选择这些峰去产生有用的肽裂解谱。

分析过程中，应该随时对mRNA和蛋白质半衰期的差异进行比较，如随着疗程的进展，在转录物和蛋白水平捕获表达中出现的暂时变化。动态分析工具能随时监测mRNA和蛋白水平中的动态变化，根据相互轨迹的良好适宜性，能对两者之间的一致性进行评估。此外，当蛋白质表达软件分析系统如RosettaElucidator系统能对定向的MS/MS信号肽峰进行挑选，就能监测到一列峰的MS。

即使当相互参照无法与mRNA-蛋白质对相匹配时，功能分析也能获得额外的信息。转录物和蛋白质呈现出的差别表达特点，通过将具有GeneOntology(GO)分析工具的RosettaResolver和Elucidator系统直接整合，可以把二者区别开。即使数据对两个水平上的一些组成基因无效，GO分析也能揭示出转录物或蛋白质共同以及各自特有的生物学功能。

表达分析具有揭示新基因的能力。更重要的是，在转录物和蛋白质水平上的整合表达分析，能对整体的基因-基因相互作用网进行描述，提供单个基因活性中的功能内容，正如传统技术揭示的那样，这些内容会影响到生物学功能。最后，表达分析和分子生物学研究都有助于系统的了解宿主应对环境挑战、药物质量或疾病状态的反应。为了这个目标，新的分析软件工具将帮助研究者储存在蛋白组学和转录组学中新出现的高通量技术的全部力量。

表1：转录组学和蛋白组学的整合

参照系阵列平台质谱平台研究系统mRNA-

蛋白质对相关

5cDNA-

Cy3/Cy52DE-SYPRO

Ruby人THP-1细胞8低

6寡核苷酸-

Cy3/Cy52D-DIGE人NB4细胞6低

7cDNA-

Cy3/Cy52DE-

Comassie人主要的VSMC细胞5动态相似，但是不同的变化交叉

8cDNA-