实验数据的处理
互联网
数据处理的前提是能够正确地识别资料的类型,在此基础上,结合统计方法的适用条件,选择恰当的统计方法进行分析。
一、常见数据类型
确定总体之后,研究者应对每个观察单位的某项特征进行测量和观察,这种特征,能表现观察单位的变异性,称为变量(variable)。对变量的测得值称为变量值(value of vari-able)或观察值(observed value),由变量值构成资料(data)。可将资料分为以下几种类型:
1. 计量资料(measurement data) 又称定量资料(quantitative data)或数值变量(numer-ical variable)资料。为测定每个观察单位某项指标的大小而获得的资料,变量值是定量的,表现为数值大小,一般有度量衡单位。如调查某幼儿园3岁女童的发育状况,以女童为观察单位,女童的身高(cm)、头围(cm)、体重(kg)等资料均属此类资料。
2. 计数资料(enumeration data) 又称定性资料(qualitative data)或无序分类变量(unordered categorical variable)资料。为将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别,如将试验的结果分为阳性、阴性的二分类或将人类血型分为A、B、AB、O型的多分类。
3. 等级资料(ranked data) 又称半定量资料(semi-quantitative data)或有序分类变量 (ordinal categorical variable)资料。将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。如观察患者尿液中的蛋白含量,以人为观察单位,根据反应强度,结果可分 - 、±、+、++、+++、++++六级。
统计分析方法的选用,是与资料类型密切联系的。在资料分析过程中,根据需要在有关专业理论指导下,各类资料间可以互相转化,以满足不同统计分析方法的要求。对于能测量的指标,尽可能设计为定量指标,这将为分析中的资料转化带来方便;此外,对于那些原本为计数或等级的资料,在资料分析过程中,为满足某些统计分析方法的要求(如各类回归分析的要求),有时要在有关理论和实践的指导下设法转化为计量资料,称为资料或指标的量化,具体内容请参考相关专业书籍。
二、实验数据的质量评价
实验数据的质量直接影响到研究结果的科学性和可靠性。数据质量有两方面的含义,即数据是否准确和可靠,常用效度(validity)和信度(reliability)两个指标评价。
1. 效度 效度是指测量值与真值的接近程度,故又称为准确度(accuracy),用以度量测量数据系统误差(systematic error)的大小,一般采用回收实验中的回收率指标进行评价(公式5.1),即回收率愈接近100%,准确度愈高;当回收率偏离100%较大时,表示测量方法存在系统误差。注意回收率可以大于100%。
2. 信度 信度是指同一观察对象多次重复测量结果之间的吻合程度,故又称之为精确度(precision),用于度量随机误差(random error)的大小,常用标准差、变异系数或组内相关系数(interclass correlation coefficient)等指标度量,前两者愈小,或后两者愈大,表示随机误差愈小;或吻合程度愈高,亦说明测量数据的重现性愈好,数据的可靠程度愈高。
三、选择正确的统计方法
计量资料的统计分析方法可以分为两大类,即参数、非参数统计方法,若原始数据满足正态分布和方差齐性要求,可用参数方法;若不满足正态分布和方差齐性要求,可选择非参数方法。多数情况下,医学中的计量数据符合正态分布,因而参数方法是较为常用的分析方法。需强调的是,如果资料满足参数方法的条件,就不选用非参数方法处理,以避免降低检验效率和损失信息。两个样本均值比较时,如果方差齐性,用t检验;多个样本均数比较用方差分析。
计数资料一般情况下选用χ2检验或秩和检验,比如,两样本率的比较时常采用χ2检验。对于等级资料,常使用秩和检验,虽然也有文献介绍用χ2检验处理,但χ2检验只能说明两组或多组之间的分布有无差异,而不能说明两组或多组之间量方面的差异。等级资料又称单向有序列联表资料,在应用秩和检验公式时,一律用校正公式。
四、运用SPSS13.0 统计几种常见实验数据
SPSS(Statistical Package for Social Sciences,社会科学统计软件包)是国际上最流行并最具权威的统计分析软件之一。其最显著特点是菜单和对话框操作方式,绝大多数操作过程仅靠鼠标即可完成,易于操作,因而成为非统计专业人员应用最多的统计软件,也是国际期刊引用最多的统计软件。
(一)主要窗口及其功能
1. 数据编辑窗口(Data Editor)
(1)启动SPSS以后,点击 File→New→Data。通常,数据文件的格式以每行为一个记录(Case),每列为一个变量(Variable)。
(2)定义变量:
在数据编辑窗口底端选择Variable View页,可以设置以下项目。
※ NAME:变量名。若不设置,系统将依次定义为“var0001”“var0002”“var0003”……
※ TYPE:变量类型,系统默认为Numeric。
2. 数据文件的调用 SPSS所处理的数据文件有两种来源:一是在SPSS环境下新建数据文件,如SPSS 的.sav;二是从SPSS外部调用已建立的数据文件,如Excel的.xls,dBASE的?鄢.dbf,文本文件.txt。方法: File→Open→Data。
3. 输出结果的编辑 SPSS的所有计算结果均输出在Output SPSS Viewer窗口中图5-1),在此窗口,其结果为其他应用软件共享(如Word)。结果输出窗口分为左右两个窗口: “标题窗”和 “结果显示窗”。
图5-1
可将结果粘贴在Word文件中,在结果显示窗内选择要粘贴内容后,单击鼠标右键,在弹出菜单中选择Copy或Copy objects。然后打开Word文件,选择粘贴命令,粘贴于预定位置。
注意选择Copy与Copy objects的区别。若选择Copy,则每次只能选择一项输出内容,如果选择统计表,则统计表粘贴在Word文件中时转变为文本格式。若选择Copy objects,则每次可选择多项内容或全部输出结果,且统计表粘贴在Word文件中时,仍为图形方式。
存储结果文件时,从菜单选择 File→Save 然后键入文件名。SPSS的结果文件以.spo为默认后缀。
(二)t 检验
1. 配对样本t 检验(Paired-Samples T Test)
(1)用途:用于检验来自正态总体的两个彼此相关的样本均值之间的差异。
(2)示例:随机抽取了8份某种品牌酸奶制品,分别用高效液相色谱法(High)和奶粉蛋白快速检测盒(kit)测定其蛋白质含量(%),比较两种方法测定结果是否不同。
(3)数据格式:共2列,第1列为“高效液相色谱法”,第2列为“奶粉蛋白快速检测盒测定法”所测酸奶中蛋白质含量(图5-2)。
图5-2
(4)配对样本t检验:Analyze→Compare Means→Paired-Samples T Test ,弹出配对t检验对话框(Paired-Samples T Test),按住Shift键,用鼠标同时选取两个变量,并将其选入右侧列表Paired Variables框内。击Ok按钮开始配对t检验。
(5)结果:列出了配对样本统计量(Paired Samples Statistics ),见图5-3;配对样本相关性检验(Paired Samples Correlations)见图5-4;配对样本t检验(Paired Samples Test)见图5-5。
图5-3
图5-4
图5-5
图5-7列出了两配对样本的均值、样本容量、标准差以及平均标准差。
图5-8中Correlation(相关系数),显示配对样本的线性相关性。相关系数为0.830,线性关系的显著性概率Sig.=0.011<0.05,说明两种方法所测的蛋白质含量具有较高的线性相关性。
图5-9中Paired Differences表示配对变量数值差,列出了成对样本数值差的统计量值。t统计量值t=6.377;自由度=7。t检验的双尾显著性概率Sig.=0.000<0.01,说明两种方法所测的蛋白质含量具有显著差异。
2. 独立样本t检验(Independent-Samples t Test)
(1)用途:用于检验来自正态总体的两个彼此独立的样本均值之间的差异。
(2)示例:1型糖尿病SD大鼠16只,每组8只分别给予消糖胶囊以及蒸馏水作为治疗组和对照组,假定两组测量结果服从正态分布。设显著性水平为0.05,试问24h尿蛋白(mg)在两组间有无差别。原始数据如下:
表5-10 24尿蛋白测定值
治疗组 14.72 15.00 13.00 15.62 16.32 14.34 14.45 13.79
对照组 18.00 18.72 17.89 17.00 19.01 18.22 17.95 16.99
(3)数据格式:(图5-10)共2列,第1列为两组 尿蛋白测定值,第2列为分组标记,分别用1、2表示“治疗组”和“对照组”见图5-6。
图5-6
(4)独立样本t检验:Analyze→Compare Means→Independent-Samples t Test 弹出独立样本t检验对话框。选“protein”为Test Variable,选“group”为Grouping Variable。点击Define Groupsv…,在Group1、2中分别填入1,2为分组标志,单击Continue开始计算。
(5)结果:列出了分组统计量表(Group Statistics)(在此略)和独立样本T检验(Independent Samples Test)见图5-7。分组统计量表列出以下参数:两组样本的均值、样本容量、标准差以及平均标准差。
图5-7
图5-11中Levene’s Test for Equality of Variances为方差齐性检验,在Equal variances assumed(等方差假设)下,F=0.777,显著性概率Sig.=0.393> 0.05,可以认为两组所测的尿蛋白的方差是齐性的。
t-test for Equality of Means为两样本均数的t检验,检验结果有: t统计量=-7.461,自由度为14;t分布的双尾性概率Sig.=0.000<0.01,因此认为两组所测的尿蛋白具有显著性差异。
(三)χ2检验
1. 用途 用于推断两个总体率或构成比之间有无差别。
2. 示例 ①经通络胶囊;②烟酸片。降低高脂血症疗效是否有差别?原始数据如下。
级别(group) 有效(valid) 无效(invalid)
① 99 5
② 75 21
3. 数据格式 共3列,第1列为“例数n”;第2列分别用1、2表示是否有效,有效为1,无效为2;第3列表示分组情况,1为经通络胶囊组,2为烟酸片组(图5-8)。
图5-8 四格表χ2检验数据录入
4. χ2检验 说明频数变量,从菜单选择 Data→Weight Cases→Weight Cases By,选入表示“例数n”的变量→Ok。
从菜单选择 Analyze→Descriptive Statistics→Crosstabs,弹出Crosstabs对话框,选表示“valid”的变量为Rows;选表示“group”的变量为Columns。点击Statistics…,选 Chi-square→ Continue→Ok。
5. 结果 列出了χ2检验(Chi-Square Tests),见图5-9。
图5-9
图5-13中χ2值为12.857,自由度为1,显著性概率为0.000,因此,认为两种药物降低血脂总体有效率不等。
(四)单因素方差分析
1. 用途 用于推断多个样本均数比较的分析。
2. 示例 为了研究肿瘤坏死因子α (TNF-α)在糖尿病发生、发展中的作用,分别从胰岛素抵抗糖尿病患者①,非胰岛素抵抗糖尿病患者②以及一组正常人③中随机抽取8人,比较TNF-α的浓度ng/L在三组间有无差别。原始数据如下:
1 68.00 67.00 67.01 86.00 69.80 72.55 65.01 69.77
2 55.18 53.67 50.18 58.12 59.33 54.78 53.99 57.12
3 43.78 45.88 42.67 45.02 43.89 44.04 46.04 48.12
3. 数据格式 输成2列,第1列为“TNF-α”的浓度ng/L,第2列为“group”,其中,分别以1、2、3来表示“胰岛素抵抗糖尿病患者”组、“非胰岛素抵抗糖尿病患者”组以及 “正常人”组。
4. 方差分析 选择 Analyze→Compare Means→One Way Analysis of Variance
(1)Dependent:因变量。本例选“TNF-α”; Factor:因素,本例选择 “group”。
(2)Post Hoc…:多重比较。选择LSD,用t检验完成各组间的配对比较。Significance level:0.05。
(3)Options选择项 Statistics选择Descriptive以及Homogeneity of variance test(计算Levene统计量值检验各组的方差齐性)。
5. 结果 列出了描述性统计(Descriptives)意义同前,此处略;方差齐性检验(Test of Homogeneity of Variances)见图5-10;单因素方差分析(ANOVA)见图5-14;多重比较检验(Multiple Comparisons)见图5-11。
图5-10
图5-14中Levene统计量值为2.158,第一、二自由度分别为2、21,显著性概率Sig =0.141>0.05,因此各组样本方差齐性。
图5-11
图5 -12 单因素方差分析表的结果分析如下:
(1)表内第一列为方差来源,它们是Between Groups (组间),Within Groups(组内),Total(总平方和)。
(2)Sum of Squares(平方和),组间平方和为2677.598,组内平方和为385.134,总平方和为3062.731。
(3)df为自由度,组间平方和、组内平方和以及总平方和的自由度分别为2、21、23。
(4)Mean Square 为均方,均方等于平方和与自由度之商。组间均方为1338. 799,组内均方为18.340。
(5)F为组间均方除以组内均方的商,F为73.000。
(6)Sig.为F分布的显著性概率,Sig.=0.000<0.05。因此接受原假设,认为TNF-α的浓度ng/L在三组间有显著性的差异。
图5-16中LSD检验法显示因变量group的第I个水平和第J个水平之间两两配对后,检验它们对TNF-α的影响是否存在显著性差异。不难发现,各组的多重比较之间,Sig.= 0.000<0.01,它们对TNF-α的影响存在显著差异。
图5-12
思考题
1. 实验记录的重要性在哪里?
2. 实验记录的主要内容有哪些?
3. 资料可分为几种类型?
4. 根据资料的类型如何选择正确的统计方法?
(李丹玲 陈平雁)