丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

三种基因表达数据的分类分析方法

互联网

2064
相关专题
DNA微阵列基因表达数据分析

在生物医学中,基于表达数据的肿瘤分型诊断是重要的应用领域。 1999 年, Golub 等人的研究证明了肿瘤亚型之间在基因表达上的差异,通过对一组特异基因的表达检测,可以进行临床诊断,并指导治疗方案的制定。随后,很多研究组开展了用 DNA 微阵列检测基因表达用于肿瘤诊断的研究,所涉及的肿瘤包括白血病、乳腺癌、肺癌、结肠癌等,有些工作已应用于临床实践。在这些研究中,根据表达数据对样本进行肿瘤亚型分类成为生物信息学 的一项重要研究内容。

分类是从训练数据中找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。对基于表达数据的肿瘤分类,就是根据已知肿瘤类型的样本数据来构建分类器,然后利用它对新的表达数据进行分类分析,确定肿瘤的类型。基于基因表达 数据的肿瘤分型诊断的数据分析主要包括以下过程:

①肿瘤分型特异基因的选择。在 DNA 微阵列实验中,基因数目成千上万,但实际上影响样本分类的,往往只是很少一部分的关键基因,其它的基因往往是不相关的,是冗余的或显著性较小。过多的基因会导致噪声的增加,影响到分类效果。因此,需要选择对肿瘤分型有效的一组基因,这组基因的表达行为对于诊断肿瘤是特异性的,因此,这组基因也称为信息基因 (informative genes) 。要确定信息基因并非是件容易的事,常用的方法是前面所述的显著性分析,从不同肿瘤类型的样本中分析基因表达 差异的显著性,挑选出显著性高的基因作为信息基因。但由于基因调控的复杂性和实验控制等因素的影响,这些基因并不能很好地实现分类的目的。此外还有一些方法,例如,采用信息增益来评价基因在分类中的显著性,或采用遗传算法和分类相结合的方法来选择信息基因。

②构建分类器,利用已知类别的数据训练来构建决策规则。方法很多,下面将对常用的方法进行具体介绍。

③检验分类预测的有效性。在对肿瘤分型表达谱数据进行分类分析时,可以通过敏感性和特异性来分析分类结果的好坏。如果用 TP 表示阳性率, FP 表示假阳性率, TN 表示阴性率, FN 表示假阴性率。则敏感性的定义为 TP/TP+FN ,而特异性定义为 TP/TP+FP 。作为好的分类方法,要求有高的敏感性和特异性,但往往是一对矛盾;此外,对于肿瘤分类问题,还要考虑由于错分带来的风险,需要寻求某种折衷。在对肿瘤样本分类结果进行评价时,通常采用的方法是留一法和独立检验法。留一法是指每次去除 1 个样本,构建新的分类器,然后对所去除的样本进行分类,统计错误分类的次数。独立检验法将样本分为测试集和训练集。随机将数据分为 k 个子集合,依次取出一个子集作为测试集,而其余的 k-1 个子集合作为训练集,利用分类器,对测试集的样本分别进行分类,计算错误分类的次数,此过程循环 k 次。

朴素贝叶斯分类法

这是用于分类的基本方法之一,其基本思想是假设已知各类别的先验概率和似然概率,根据贝叶斯理论,可以计算该样本属于各类别的后验概率,具有最大后验概率的类别就是该样本所属的类别。朴素贝叶斯分类法的关键是要确定先验概率和似然概率,这可以从训练样本中获取。

假设要研究的分类问题有 c 个类别,每个类别分别用模型

<center> <img alt="三种基因表达数据的分类分析方法" height="25" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591277.png" width="25" /></center>

来表示, i=1,2,…,c 。待分类样本用向量

<center> <img alt="三种基因表达数据的分类分析方法" height="25" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591280.png" width="120" /></center>

表示,代表了每一个信息基因的表达值。分类问题是计算后验概率

<center> <img alt="三种基因表达数据的分类分析方法" height="25" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591282.png" width="66" /></center>

,如果

<center> <img alt="三种基因表达数据的分类分析方法" height="32" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591281.png" width="189" /></center>

,则样本 x 属于类别 i 。根据贝叶斯公式,

<center> <img alt="三种基因表达数据的分类分析方法" height="25" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591278.png" width="228" /></center>

(8-39) 在这里,后验概率的计算主要决定于似然概率

<center> <img alt="三种基因表达数据的分类分析方法" height="25" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591282.png" width="66" /></center>

,即在模型

<center> <img alt="三种基因表达数据的分类分析方法" height="25" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591277.png" width="25" /></center>

中存在样本 x 的概率,这样,决策准则由求最大后验概率转化为求最大似然概率。 对于基因表达 数据,在使用贝叶斯分类时,还需要假设样本向量的每一个值之间是相互独立的,这样可以进一步简化决策函数的计算公式:

<center> <img alt="三种基因表达数据的分类分析方法" height="48" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591271.png" width="245" /></center>

(8-40) 对于微阵列的基因表达 数据,假设每一个基因的表达数据满足高斯分布,则模型

<center> <img alt="三种基因表达数据的分类分析方法" height="25" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591277.png" width="25" /></center>

是一组高斯分布的组合,每一个高斯分布可以从训练数据中计算得到。假设

<center> <img alt="三种基因表达数据的分类分析方法" height="28" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591274.png" width="222" /></center>

<center> <img alt="三种基因表达数据的分类分析方法" height="28" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591276.png" width="32" /></center>

表示模型 i 的第 g 个基因的高斯分布模型,

<center> <img alt="三种基因表达数据的分类分析方法" height="28" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591275.png" width="112" /></center>

。这样可以修改决策函数 ( 8-40 ) 为:

<center> <img alt="三种基因表达数据的分类分析方法" height="46" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591272.png" width="578" /></center>

(8-41)

虽然该方法作了很多假设,但是在具体应用中具有较好的效果。

k- 近邻法

于两个条件下的多次重复实验,为了判断基因的表达差异是否具有显著性,在应用中较多的是采用假设检验,包括两个条件下的 t 检验和多个条件下的方差分析( ANOVA ),这里仅仅介绍 t 检验,关于 ANOVA 请参考相应的统计分析书籍。

<center> <img alt="三种基因表达数据的分类分析方法" height="33" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591279.png" width="261" /></center>

(8-42)

<center> <img alt="三种基因表达数据的分类分析方法" height="25" src="http://img.dxycdn.com/trademd/upload/asset/meeting/2013/08/27/A1377591273.png" width="41" /></center>

是计算样本向量 x 的 k 个近邻在类别 i 中的数目。

其它分类法

分类方法是机器学习中的常规方法,有很多比较成熟的算法。决策树是归纳学习法中的一种,可以根据训练样本中的属性和值归纳得到布尔型的决策函数,并可以直观地用树的形式表示。对于多种分类器得到的分类结果,可以采用投票分类法,整合多种分类结果给出最终分类。人工神经网络,特别是 BP 网络是在分类问题中应用最多的一种方法。

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序