利用机器学习预测晚期冠状动脉钙化

2019-12-10

701

个性化医疗的目标之一是利用数据科学工具指导医疗决策。在这里，Cihan Oguz和他的同事在BMC系统生物学的系统医学专题系列的一篇文章中描述了他们如何使用机器学习工具来开发冠心病的预测模型。

在普通人群中，个体之间患冠心病的风险有很大的差异。像低密度脂蛋白胆固醇和收缩压这样的临床变量并不总是能说明一个人患冠心病的风险。

过去的研究表明，患者的冠状动脉钙（CAC）水平是冠心病以及致命心脏事件（如心脏病发作）的有力预测因子。识别预测高CAC水平的标志物，对于识别风险更大的患者和预防心脏病加速发展，特别是在早期，有很大帮助。

怎样才能识别出这样的标记物来预测那些处于晚期CAC高风险的个体呢？随着基因组学的最新进展，一种可能的途径是利用来自患者库的基因组信息，其中包括两个亚组，代表一般人群中表型分布的两个极端（即无疾病与晚期疾病）。

单核苷酸多态性（SNPs）是一种特别丰富的遗传变异源（人类基因组中约有1000万个SNPs），是建立遗传变异与复杂疾病之间联系的理想途径。建立复杂疾病预测模型的一个主要挑战是它们的多因素性质，涉及到多个基因之间的相互作用。

近年来，人们对机器学习工具在疾病预测中的应用越来越感兴趣。这些方法提高了整合多个数据源（如临床、基因型和转录组）的能力，同时利用疾病预测因子之间潜在的线性和非线性交互作用。

为此，我们将临床数据和SNP基因型数据整合到机器学习模型中，以识别预测晚期CAC水平的SNP。我们在一个发现队列中发现了56个高度预测性的单核苷酸多态性，然后在一个独立的复制队列中进行了测试。

这两个来自ClinSeq®和Framingham心脏研究的队列由中年白种人组成，因为与美国其他人群相比，他们患晚期CAC的风险更高。CAC分布的两个极端在两个队列中的代表性相同（即，没有CAC与极高的CAC水平）。

从发现队列中识别出的56个snp中，有21个通过两种基于机器学习的建模方法（即随机森林和神经网络）在两个队列中产生了最佳预测性能。当我们用具有中等CAC水平的患者测试这些snp时，预测性能显著下降。因此，高性能是高级CAC特有的。

最后，我们利用GeneMANIA数据库创建了一个由21个snp的最佳子集所在的基因以及先前报道的与这些基因相互作用的其他基因组成的功能相互作用网络。参与活性氧产生和抑制（CAC和血管老化的主要驱动因素）的几个基因存在于这个网络中。

总之，我们的结果表明，机器学习工具有希望获得预测疾病模型和网络。这些工具可能通过帮助医生设计最佳治疗策略和利用基因组数据识别潜在的药物靶点，在个性化医疗中发挥越来越大的作用。