丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

怎么样的临床试验才能登顶 Lancet?

生物学霸

1744

近日浏览 Lancet 网页,其主页放了一篇关于儿童克罗恩病(Crohn's Disease,CD)的队列研究,笔者并非消化内科相关,而是呼吸内科一年级研究生,抱着建模方式或许可以借鉴到老师的临床研究项目中的心态入了坑。


图一,3 月 15 日 Lancet 的主页截图

本文针对儿童克罗恩病并发症预测的多中心的队列研究,来自于 RISK Study。现在大多数 SCI 杂志对于临床研究接稿都要求试验开展前已进行临床试验注册,收完病人再去补是无济于事的。

图二,临床试验注册网页截图 ClinicalTrials.gov identifier NCT00790543

克罗恩病并发症分型:

狭窄型(structuring,B2)和穿透型(penetrating,B3),细胞外基质(extracellular matrix proteins,ECM)形成和降解间的平衡与两类并发症的联系。其异质性由宿主因素主导的,受环境和肠道微生物菌群的影响。

主要检测了四个方面的特异性的指标:基因型、微生物血清学、回肠基因表达、肠道微生物。

结果:建立了竞争风险模型预测并发症发生;有穿透型并发症风险的病人更应早期进行抗 TNFα 治疗;肠道菌群方面,Ruminococcus 与狭窄型密切相关,而 Veillonella 与穿透型相关;在狭窄型病人中,回肠 ECM 生成的基因表达上调,加入模型预测特异性大大增加。

接下来以 Result 解读为线索,解读大数据处理,分为 3 个部分。

第一部分解读:疾病并发症竞争风险模型和早期抗 TNFα 治疗的疗效比较分析


图三,随访时发展为狭窄或穿透并发症的生存曲线,图(A)为整个队列,图(B)为倾向匹配队列。

随访时间为 3 年,纵坐标为无并发症的百分比,横坐标是随访天数。早期抗 TNFα 的治疗减少发展为 B3 的 3 倍风险,而对发展为 B2 无明显影响,B3 风险高的病人更应该进行早期抗 TNFα 治疗。

纳入早期抗 TNFα 的治疗队列选用符合方案集(Per-protocol,PP)规则,只分析实际完成整个治疗的。配对运用倾向评分匹配法(propensity-matched analysis,PSM),依托倾向评分法(propensity score analysis,PSA),消除观察性研究的混杂因素,最终得到 1 个综合变量: 倾向性得分。再使用贪心匹配算法(greedy-matching algorithm),钳值(caliper)为 0.1 SDs。


表 1,疾病并发症的竞争风险模型和早期抗 TNFα 治疗的疗效比较分析

作者意图建立风险分层模型来预测并发症发生的风险,以及加入早期抗 TNFα 的治疗变量后对模型的影响。主要以 P 值决定是否将变量纳入模型。风险比(hazard ratio,HR)可从图中读出。

相比于标准 Cox 比例风险回归模型(standard Cox proportional hazard regression)关注的是临床的某一结局(单终点),竞争风险模型(competing-risk model)可分析多潜在结局的生存数据。评价早期抗 TNFα 的治疗,使用疗效比较研究(comparative effectiveness research,CER)。

第二部分解读:基因表达与并发症及其预测

基因表达通过第二代测序 RNASeq,运用到基因本体(Gene Ontology,GO)数据库,ToppFun 工具找到有表达差异的通路,DAVID 生物信息数据库来做功能注释富集分析(functional annotation enrichment analyses)。

图四(A),展示的是进展为并发症的病人回肠表达上调的基因的比例,横坐标是 B2(蓝条)-B3(红条);纵坐标为富集明显的表达上调的 19 个基因本体通路,括号里是每条通路包含的基因数。

往上走是肠道细菌诱发急性炎症反应表达的基因,偏向 ECM 降解,对应穿透型(B3>B2);向下是 ECM 累积的通路,偏向形成 ECM,对应狭窄型(B2>B3),照应前文提到的细胞外基质降解和产生的平衡。将 B2 vs B1、B3 vs B1 的结果结合在一张图上,生动的看到了两者的区别。


图四(B)是发展为并发症的病人的回肠基因表达组合的散点密度图,横坐标是 B2 vs B1,纵坐标是 B2 vs B3。基因差异表达倍数值(fold changes,FC),取 log2 是要缩小两者差距。可以看出 ECM 基因在 B2 中表达增高。

图四(C)展示的是火山图,X 轴代表基因差异表达倍数(FC,log2),Y 轴代表统计检验的显着性(p 值,-log10)。比较 B2 low probability(并发症预测低风险,实际却狭窄)和 B1 protected(并发症预测高风险,实际却没发展为并发症)。B1 protected 中,线粒体呼吸链(mitochondrial respiratory)基因(暗红色点)几乎全部表达上调;B2 low probability 中,ECM 重塑基因(亮蓝色点)表达上调。

以上是回肠基因表达的分析,那么如何将这个变量加入到竞争风险模型呢?


表 2,包含 ECM 基因标志的竞争风险模型


文章将图四(A)中 B2 最低端的 ECM 结构成分(位于 pathway 富集分析的分子功能部分)的 70 个基因中的 PC1(first principal component)作为基因标志,纳入到模型中,运用了主成分分析(Principal component analysis,PCA)。用 AUROC、灵敏度、特异度、阳性预测值、阴性预测值评估 ECM 基因标志纳入对模型的判别能力的影响,发现其在预测 B2 时起到了关键的作用。


表 3,appendix 中的 Table S4 上调的回肠基因的通路富集分析,B2(这张图可以复习之前讲过的很多知识点)

第三部分解读:风险预测模型的有效性验证(Risk Prediction Validation)

建模相当于发挥分类器的作用,交叉验证(Cross Validation,CV)是常用的模型验证方法,可以从有限的数据中获得尽可能多的有效信息,流程:选取模型参数→导入训练数据(training set)→建模→用验证数据(validation set)测试模型效果。估计队列的样本量时,使用了模拟数据做从而确定样本量。当样本量支持将数据分为两份,用有效性验证(split sample);样本量小,选用留一法(leave-one-out,LOOCV)验证。

文章中使用的 STROBE(Strengthening the Reporting of Observational Studies in Epidemiology),是由国际医学期刊编辑委员会 2004 年制定的写作规范,投稿时应注意按规范书写。

小结

至此,通过三部分的解读,探讨怎么样的临床试验才能登顶 Lancet,如果这是一个作者写的,我一定会说不会计算机的生物学家不是好医生。

医生作为主体参与临床试验是必不可少的,作者一栏中大多是多中心的 MD,所以笔者特意查了下里面的 PhD,基本是生物信息、流病、基因组学分析的专业人士,可见一篇 Lancet 文章的发表是多学科的协作创新。

总之,走过基因组时代,我们又迫不及待地踏入了大数据时代,深度学习、神经网络、AI 这些原本活在计算机的语言同样冲击着生物医学界,如何结合传统生物学、基础医学对疾病机制进行深刻的认识,发掘诊断、治疗的新靶点、新方法,生物信息学或许是新的路数。

本文接近于零基础探讨,希望给同样的小白选手以思路,共同学习,纯属抛砖引玉,也望各路大神多多指点,分享经验。鉴于公众号阅读的简洁性,详细版发在丁香园论坛上,欢迎有兴趣的同道前来指导。


更多内容请关注生物学霸微信公众号:shengwuxueba



提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序