连续性变量非正态分布，差异分析怎么做？

科研论文时间2022-06-21

14320

数据统计分析是一个让大家头痛的问题，统计方法之多，以致于拿到数据后往往都无从下手。

临床研究对统计分析的要求尤其高，也是审稿人的关注点。因此要做好临床研究，首先要掌握统计分析。

每种统计方法对数据类型及分布是有要求的，这是我们在选择正确统计方法前必须要考虑的。

对于来自于临床样本的数据和实验结果，由于个体差异大，绝大部分连续性变量都不符合正态分布，除非是大数据（如正常人群白细胞数，血糖等这些数据会是正态分布）。

因此，今天笔者主要介绍非正态分布的连续性变量的表示及组间差异的统计分析。对于数据分布特点（正态分布和非正态分布）可以通过直方图分布特点判断或者 D 检验、W 检验来判断。下面就这两种方法举例分析（SPSS 分析）。

P>0.05 为正态分布，反之为非正态分布。从直方图也可以直观的判断，Group1 为正态分布，Group2 为非正态分布。

图片来源：软件截图

对于非正态分布的一组连续性变量，选用均数（Mean）和标准差（SD）表示是不准确的（很多初学者，刚开始写文章，大多选用的是这种表示方式）。

一般选用中位数 (Median) 和四分位数间距（IQR,p25-p75）表示更为合适。

但有的杂志的审稿人会要求用范围（range）来表示离散趋势，但这样容易受最大值和最小值的影响而不稳定。

下图是用 GraphPad 分析的，由于两组数据非正态分布我们选用 median（IQR）表示。

图片来源：软件截图

两组非正态分布的连续性变量间的差异分析，我们一般选择非参数检验。

根据我们的两组数据是配对的（如治疗前后）还是独立的而选择对应的非参数检验方法。

常用的方法总结如下表：

图片来源：自己做的

用 GraphPad 分析如下：

（1）两组独立非正态分布的连续性变量

图片来源：软件截图

（2）两组配对的非正态分布的连续性变量（29 个病人治疗前后的数据）

图片来源：软件截图

（3）多组（大于两组）数据间的差异分析

同上所述，我们的数据如果不符合正态分布、方差齐等条件，我们选择的还是非参数检验。

那么我们的统计方法的选择如下：

多组独立非正态分布的连续性变量先选择 Kruskal-Wallis H 检验，在 p<0.05 时说明这些组间有统计学差异，然后我们再选择成对比较，进一步看哪些组间存在差异。

对于多组相关的非正态分布的连续性变量（如随访病人在随访过程中多次的检测结果, 或治疗前、治疗中和治疗后的某一指标的变化），选择 Friedman 检验先分析这些组间是否有差异。如果有差异（p<0.05）然后进一步选择「比较分布」进行成对比较。

总结如下表：

图片来源：自己做的

（1）多组独立非正态分布的连续性变量（3 组）

图片来源：软件截图

（2）多组相关的非正态分布的连续性变量（3 组）

图片来源：软件截图

临床研究与基础实验研究的数据有所不同。临床研究的数据来自于人，个体背景差异大，即使是同一疾病但不同病人间的结果可能都有很大差异。而基础实验数据来自于细胞培养的重复实验，或同遗传背景的动物实验，其同组间实验结果的变化小，因此有可能符合参数检验的要求。

而临床研究能达到要求的数据不多，从而多选择非参数检验。非参数检验对数据要求不严格，使用的范围广，相对简单，但也是由于这种要求不严格，会大大降低检验的功效。非参数检验使用了等级或排序，数据的原始信息没有充分应用，因而检验的有效性会降低。

所以只有当条件不符合时才会选择非参数检验。以上是我的一点体会和总结，希望能给大家一点帮助。