统计第十三课:SPSS ROC曲线
互联网
今天师兄跟你们聊聊什么是 ROC 曲线以及他的用途(想跟师兄成为好伙伴的你,快来找我吧,师兄微信号:laiwenshixiong)
什么是 ROC 曲线?
wiki 上说,ROC 曲线最先在二战中分析雷达信号,用来检测敌军。诱因是珍珠港事件;由于比较有用,慢慢用到了心理学、医学中的一些检测等应用,慢慢用到了机器学习、数据挖掘等领域中来了,用来评判分类、检测结果的好坏。
百科里说:ROC 曲线指受试者工作特征曲线 (receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标, 是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在 ROC 曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。
这东西在计算机领域里称之为分类器。
ROC 曲线能干什么用?
1.ROC 曲线能很容易地查出任意界限值时的对疾病的识别能力。
2. 选择最佳的诊断界限值。
3. 用来比较两种或两种以上不同诊断试验对疾病的识别能力。(在对同一种疾病的两种或两种以上诊断方法进行比较时,可将各试验的 ROC 曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的 ROC 曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的 ROC 曲线下的面积 (AUC) 进行比较,哪一种试验的 AUC 最大,则哪一种试验的诊断价值最佳。)
实例操作
腺苷脱氨酶(ADA)对结核性浆膜腔积液的鉴别有很好的意义。一项研究选择了 40 例腹水患者,其中确诊结核性腹水 20 例,肿瘤性性腹水 20 例,测定腹水 ADA,研究目的是确定 ADA 诊断结核的界值。
数据变量如下:
group:1 为结核,2 为肿瘤
ADA:为腹水 ADA 值,连续变量
变量视图:
选择菜单:
进入主对话框,设置如下:
点击确定输出结果。
结果解读
这就是 ROC 曲线,对角线为参考线。双击图标可进入编辑状态。
这是对 ROC 曲线下面积的检验,曲线下面积为 0.792,P=0.002,有统计学意义,说明 ADA 对结核的诊断有意义。曲线下面积越大,说明该项检验的诊断效能越大。
这是曲线的坐标点,以及相应的敏感性,1-特异性。
如何确定最佳界值:
除非特别指明,最佳界值的确定常用「尤登指数」,即敏感性+特异性-1,该指数值的取最大值处就是最佳的界值。
利用上表「曲线的坐标」,可以求得各个坐标点敏感性+特异性-1 的值,其最大值对应的就是最佳界值。
想了解更多有用的、有意思的前沿资讯以及酷炫的实验方法的你,都可以成为师兄的好伙伴
师兄微信号:laiwenshixiong