你如何解决古蛋白质组学中的一个问题?
古蛋白质组学对考古学家和进化生物学家具有巨大的潜力。莱比锡马克斯普朗克进化人类学研究所的Frido Welker在最近发表在BMC进化生物学上的一篇论文中,研究了古蛋白质组研究中的容错搜索的有效性,强调了研究古人类全蛋白质组的一些潜在问题和解决方案。
古蛋白质组学——令人兴奋的新领域
古蛋白质组学是考古学和进化生物学领域的新兴学科。最近才为这一新兴的研究领域制定了实践标准,最近用于研究古代人类、动物,甚至恐龙(尽管这有点争议)。
与古代DNA相比,古代蛋白质序列是非常强大的,最近从380万年前的样本中提取的蛋白质。
生物信息学技术
单氨基酸多态性(SAPs)是蛋白质组中一个氨基酸(AA)差异出现的区域,有助于确定不同分支之间的进化差异,包括晚更新世的尼安德特人和杰尼索万人。
容错搜索(当接收到的示例以某种方式被破坏时,该算法可以“学习”)正确地推断了现代和更新世样本的1型胶原中的SAP,但正如Welker博士所指出的,这“需要在(整个蛋白质组)中得到证实,然后才能进行更古老、可能更具差异性的人类化石的分析”。这是他最近发表在BMC进化生物学上的论文中所报告的实验的基础。
跨物种蛋白质组学效应问题
直到现在,跨物种蛋白质组学效应(CSPE)问题还没有被证明可以通过容错搜索来解决,这对于古蛋白质组学研究的信心至关重要。
CSPE问题源于使用来自目标种群或物种的不同参考蛋白质组。当你在进化树上进一步追溯,你的目标物种和它们的远亲之间会出现更大的蛋白质组序列差异。
序列差异的数量越大,肽和蛋白质在标准(非容错)搜索中不被识别的可能性就越大。可用于人类蛋白物种的小型蛋白质组数据库复合了这一效应。
容错与标准搜索实验
容错搜索应允许识别sap,并克服CSPE问题。Welker博士使用标准的和容错的搜索方法对7个现代人类样本的蛋白质组进行了测试,这些样本分别来自于UniProt衍生的人类(智人;‘智人’)、黑猩猩(Pan troglodytes;‘Pan’)和苏门答腊猩猩(Pongo abelii;‘Pongo’)参考数据库,使用峰值(v 7.5)。
为了确认一个蛋白质,在一般搜索中根据人类数据库搜索现代样本时,至少需要识别两个FDR(错误发现率)为1%的唯一肽谱匹配(PSMs)。在容错搜索中,只有当在人类数据库中匹配10个氨基酸(a a s)或更长的肽时,PSMs才被接受。
在容错搜索中,针对直系数据库单独搜索的PSM建立了四个结果,在标准搜索中建立了两个结果,可以在Welker博士的论文中的图1中看到。
进化距离和长肽
没有发现有三个或更多sap的psm,几乎从未发现AA长度超过25的可变psm(Welker博士文章中的图4)。无论进化距离如何,10-15原子吸收光谱的可变PSMs在75%的时间内被鉴定出来。
当比较人类蛋白质组和更古老的人类祖先时,这可能是个问题——更大的进化距离可能使可靠地重建系统发育树变得困难。
韦尔克建议在古蛋白质组学研究中创建较短的肽段,并搜索进化距离较短的物种数据库,尽管后者对于较古老的人类可能更为困难。
容错搜索将中等差异蛋白质组(如人类黑猩猩分裂)之间的CSPE问题最小化,这一点在将来古人类蛋白质组的系统发育分析中应牢记。
减少错误建议的AA替代的过滤标准
容错搜索可能会错过匹配的psm,错误地提示psm不应发生变异,从而混淆了系统发育分析。Welker确定了过滤标准,以减轻容错搜索中的这些偏离目标的影响:
必须确认两个或多个涵盖变异AA位置的PSM。
这些PSM必须占与AA位置匹配的PSM总数的大多数。
这些过滤准则去除了错误的a a替换,但可以过滤出与单个PSM匹配的正确替换PSM,这可能会影响系统发育信息PSM。韦尔克建议在串联质谱仪上多次运行相同的蛋白质提取物。
信息蛋白是系统发育研究的潜在靶点
与缓慢进化的蛋白质相比,快速进化的蛋白质提供了更多的系统发育信息,但它们的高替换率意味着它们在容错搜索中可能无法识别。Welker揭示了两种快速进化的蛋白质,它们的系统发育信息位置足够间隔,即使在进化距离较大的情况下也能进行容错搜索识别。
α-2-HS-glycoprotein(AHSG)和纤维蛋白原α链(FGA)是古骨蛋白质组学研究中经常观察到的两种蛋白质,为蛋白质组学系统发育研究提供了一个可行的靶点。
尽管在古蛋白质组研究中容错搜索存在局限性,弗里多·韦克尔已经建立了过滤标准和推荐的实验技术,以帮助最大限度地发挥整个蛋白质组研究的潜力。此外,他还发现了两种对进化研究有潜在价值的蛋白质。
古蛋白质组学是一个新的研究领域,其潜力和局限性还有待进一步探索。韦克尔博士的论文填补了这一未知领域地图的一部分。