丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

实验数据的处理

互联网

5730

数据处理的前提是能够正确地识别资料的类型,在此基础上,结合统计方法的适用条件,选择恰当的统计方法进行分析。

一、常见数据类型

确定总体之后,研究者应对每个观察单位的某项特征进行测量和观察,这种特征,能表现观察单位的变异性,称为变量(variable)。对变量的测得值称为变量值(value of vari-able)或观察值(observed value),由变量值构成资料(data)。可将资料分为以下几种类型:

1. 计量资料(measurement data) 又称定量资料(quantitative data)或数值变量(numer-ical variable)资料。为测定每个观察单位某项指标的大小而获得的资料,变量值是定量的,表现为数值大小,一般有度量衡单位。如调查某幼儿园3岁女童的发育状况,以女童为观察单位,女童的身高(cm)、头围(cm)、体重(kg)等资料均属此类资料。

2. 计数资料(enumeration data) 又称定性资料(qualitative data)或无序分类变量(unordered categorical variable)资料。为将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别,如将试验的结果分为阳性、阴性的二分类或将人类血型分为ABABO型的多分类。

3. 等级资料(ranked data) 又称半定量资料(semi-quantitative data)或有序分类变量 (ordinal categorical variable)资料。将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。如观察患者尿液中的蛋白含量,以人为观察单位,根据反应强度,结果可分 - 、±、+、++、+++、++++六级。

统计分析方法的选用,是与资料类型密切联系的。在资料分析过程中,根据需要在有关专业理论指导下,各类资料间可以互相转化,以满足不同统计分析方法的要求。对于能测量的指标,尽可能设计为定量指标,这将为分析中的资料转化带来方便;此外,对于那些原本为计数或等级的资料,在资料分析过程中,为满足某些统计分析方法的要求(如各类回归分析的要求),有时要在有关理论和实践的指导下设法转化为计量资料,称为资料或指标的量化,具体内容请参考相关专业书籍。

二、实验数据的质量评价

实验数据的质量直接影响到研究结果的科学性和可靠性。数据质量有两方面的含义,即数据是否准确和可靠,常用效度(validity)和信度(reliability)两个指标评价。

1. 效度 效度是指测量值与真值的接近程度,故又称为准确度(accuracy),用以度量测量数据系统误差(systematic error)的大小,一般采用回收实验中的回收率指标进行评价(公式5.1),即回收率愈接近100%,准确度愈高;当回收率偏离100%较大时,表示测量方法存在系统误差。注意回收率可以大于100%。

2. 信度 信度是指同一观察对象多次重复测量结果之间的吻合程度,故又称之为精确度(precision),用于度量随机误差(random error)的大小,常用标准差、变异系数或组内相关系数(interclass correlation coefficient)等指标度量,前两者愈小,或后两者愈大,表示随机误差愈小;或吻合程度愈高,亦说明测量数据的重现性愈好,数据的可靠程度愈高。

三、选择正确的统计方法

计量资料的统计分析方法可以分为两大类,即参数、非参数统计方法,若原始数据满足正态分布和方差齐性要求,可用参数方法;若不满足正态分布和方差齐性要求,可选择非参数方法。多数情况下,医学中的计量数据符合正态分布,因而参数方法是较为常用的分析方法。需强调的是,如果资料满足参数方法的条件,就不选用非参数方法处理,以避免降低检验效率和损失信息。两个样本均值比较时,如果方差齐性,用t检验;多个样本均数比较用方差分析。

计数资料一般情况下选用χ2检验或秩和检验,比如,两样本率的比较时常采用χ2检验。对于等级资料,常使用秩和检验,虽然也有文献介绍用χ2检验处理,但χ2检验只能说明两组或多组之间的分布有无差异,而不能说明两组或多组之间量方面的差异。等级资料又称单向有序列联表资料,在应用秩和检验公式时,一律用校正公式。

四、运用SPSS13.0 统计几种常见实验数据

SPSSStatistical Package for Social Sciences,社会科学统计软件包)是国际上最流行并最具权威的统计分析软件之一。其最显著特点是菜单和对话框操作方式,绝大多数操作过程仅靠鼠标即可完成,易于操作,因而成为非统计专业人员应用最多的统计软件,也是国际期刊引用最多的统计软件。

(一)主要窗口及其功能

1. 数据编辑窗口(Data Editor

1)启动SPSS以后,点击 FileNewData。通常,数据文件的格式以每行为一个记录(Case),每列为一个变量(Variable)。

2)定义变量:

在数据编辑窗口底端选择Variable View页,可以设置以下项目。

NAME:变量名。若不设置,系统将依次定义为“var0001”“var0002”“var0003”……

TYPE:变量类型,系统默认为Numeric

2. 数据文件的调用 SPSS所处理的数据文件有两种来源:一是在SPSS环境下新建数据文件,如SPSS 的.sav;二是从SPSS外部调用已建立的数据文件,如Excel.xlsdBASE?.dbf,文本文件.txt。方法: FileOpenData

3. 输出结果的编辑 SPSS的所有计算结果均输出在Output SPSS Viewer窗口中图5-1),在此窗口,其结果为其他应用软件共享(如Word)。结果输出窗口分为左右两个窗口: “标题窗”和 “结果显示窗”。

图5-1

可将结果粘贴在Word文件中,在结果显示窗内选择要粘贴内容后,单击鼠标右键,在弹出菜单中选择CopyCopy objects。然后打开Word文件,选择粘贴命令,粘贴于预定位置。

注意选择CopyCopy objects的区别。若选择Copy,则每次只能选择一项输出内容,如果选择统计表,则统计表粘贴在Word文件中时转变为文本格式。若选择Copy objects,则每次可选择多项内容或全部输出结果,且统计表粘贴在Word文件中时,仍为图形方式。

存储结果文件时,从菜单选择 FileSave 然后键入文件名。SPSS的结果文件以.spo为默认后缀。

(二)t 检验

1. 配对样本t 检验(Paired-Samples T Test

1)用途:用于检验来自正态总体的两个彼此相关的样本均值之间的差异。

2)示例:随机抽取了8份某种品牌酸奶制品,分别用高效液相色谱法(High)和奶粉蛋白快速检测盒(kit)测定其蛋白质含量(%),比较两种方法测定结果是否不同。

3)数据格式:共2列,第1列为“高效液相色谱法”,第2列为“奶粉蛋白快速检测盒测定法”所测酸奶中蛋白质含量(图5-2)。

 

5-2

4)配对样本t检验:AnalyzeCompare MeansPaired-Samples T Test ,弹出配对t检验对话框(Paired-Samples T Test),按住Shift键,用鼠标同时选取两个变量,并将其选入右侧列表Paired Variables框内。击Ok按钮开始配对t检验。

5)结果:列出了配对样本统计量(Paired Samples Statistics ),见图5-3;配对样本相关性检验(Paired Samples Correlations)见图5-4;配对样本t检验(Paired Samples Test)见图5-5

5-3

5-4

5-5

5-7列出了两配对样本的均值、样本容量、标准差以及平均标准差。

5-8Correlation(相关系数),显示配对样本的线性相关性。相关系数为0.830,线性关系的显著性概率Sig.0.0110.05,说明两种方法所测的蛋白质含量具有较高的线性相关性。

5-9Paired Differences表示配对变量数值差,列出了成对样本数值差的统计量值。t统计量值t6.377;自由度=7t检验的双尾显著性概率Sig.0.0000.01,说明两种方法所测的蛋白质含量具有显著差异。

2. 独立样本t检验(Independent-Samples t Test

1)用途:用于检验来自正态总体的两个彼此独立的样本均值之间的差异。

2)示例:1型糖尿病SD大鼠16只,每组8只分别给予消糖胶囊以及蒸馏水作为治疗组和对照组,假定两组测量结果服从正态分布。设显著性水平为0.05,试问24h尿蛋白(mg)在两组间有无差别。原始数据如下:

5-10   24尿蛋白测定值

治疗组  14.72   15.00   13.00   15.62   16.32   14.34   14.45   13.79

对照组  18.00   18.72   17.89   17.00   19.01   18.22   17.95   16.99

3)数据格式:(图5-10)共2列,第1列为两组 尿蛋白测定值,第2列为分组标记,分别用12表示“治疗组”和“对照组”见图5-6

图5-6

4)独立样本t检验:AnalyzeCompare MeansIndependent-Samples t Test 弹出独立样本t检验对话框。选“protein”为Test Variable,选“group”为Grouping Variable。点击Define Groupsv…,在Group12中分别填入12为分组标志,单击Continue开始计算。

5)结果:列出了分组统计量表(Group Statistics)(在此略)和独立样本T检验(Independent Samples Test)见图5-7。分组统计量表列出以下参数:两组样本的均值、样本容量、标准差以及平均标准差。

图5-7

5-11Levene’s Test for Equality of Variances为方差齐性检验,在Equal variances assumed(等方差假设)下,F0.777,显著性概率Sig.0.393> 0.05,可以认为两组所测的尿蛋白的方差是齐性的。

t-test for Equality of Means为两样本均数的t检验,检验结果有: t统计量=-7.461,自由度为14t分布的双尾性概率Sig.0.0000.01,因此认为两组所测的尿蛋白具有显著性差异。

(三)χ2检验

1. 用途 用于推断两个总体率或构成比之间有无差别。

2. 示例 ①经通络胶囊;②烟酸片。降低高脂血症疗效是否有差别?原始数据如下。

级别(group              有效(valid       无效(invalid

  ①                                     99                    5

  ②                                     75                    21

3 数据格式 共3列,第1列为“例数n”;第2列分别用12表示是否有效,有效为1,无效为2;第3列表示分组情况,1为经通络胶囊组,2为烟酸片组(图5-8)。

5-8 四格表χ2检验数据录入

 

4. χ2检验 说明频数变量,从菜单选择 DataWeight CasesWeight Cases By,选入表示“例数n”的变量→Ok

从菜单选择 AnalyzeDescriptive StatisticsCrosstabs,弹出Crosstabs对话框,选表示“valid”的变量为Rows;选表示“group”的变量为Columns。点击Statistics…,选 Chi-square ContinueOk

5 结果 列出了χ2检验(Chi-Square Tests),见图5-9

5-9

5-13中χ2值为12.857,自由度为1,显著性概率为0.000,因此,认为两种药物降低血脂总体有效率不等。

(四)单因素方差分析

1. 用途 用于推断多个样本均数比较的分析。

2. 示例 为了研究肿瘤坏死因子α (TNF-α)在糖尿病发生、发展中的作用,分别从胰岛素抵抗糖尿病患者①,非胰岛素抵抗糖尿病患者②以及一组正常人③中随机抽取8人,比较TNF-α的浓度ng/L在三组间有无差别。原始数据如下:

1   68.00   67.00   67.01   86.00   69.80   72.55   65.01   69.77

2   55.18   53.67   50.18   58.12   59.33   54.78   53.99   57.12

3   43.78   45.88   42.67   45.02   43.89   44.04   46.04   48.12

3. 数据格式 输成2列,第1列为“TNF-α”的浓度ng/L,第2列为“group”,其中,分别以123来表示“胰岛素抵抗糖尿病患者”组、“非胰岛素抵抗糖尿病患者”组以及 “正常人”组。

4. 方差分析 选择 AnalyzeCompare MeansOne Way Analysis of Variance

1Dependent:因变量。本例选“TNF-α”; Factor:因素,本例选择 “group”。

2Post Hoc…:多重比较。选择LSD,用t检验完成各组间的配对比较。Significance level0.05

3Options选择项 Statistics选择Descriptive以及Homogeneity of variance test(计算Levene统计量值检验各组的方差齐性)。

5. 结果 列出了描述性统计(Descriptives)意义同前,此处略;方差齐性检验(Test of Homogeneity of Variances)见图5-10;单因素方差分析(ANOVA)见图5-14;多重比较检验(Multiple Comparisons)见图5-11。

图5-10

5-14Levene统计量值为2158,第一、二自由度分别为221,显著性概率Sig 0141005,因此各组样本方差齐性。

 

图5-11

图5 -12 单因素方差分析表的结果分析如下:

1)表内第一列为方差来源,它们是Between Groups (组间),Within Groups(组内),Total(总平方和)。

2Sum of Squares(平方和),组间平方和为2677.598,组内平方和为385.134,总平方和为3062.731

3df为自由度,组间平方和、组内平方和以及总平方和的自由度分别为22123

4Mean Square 为均方,均方等于平方和与自由度之商。组间均方为1338. 799,组内均方为18.340

5F为组间均方除以组内均方的商,F73.000

6Sig.F分布的显著性概率,Sig.0.0000.05。因此接受原假设,认为TNF-α的浓度ng/L在三组间有显著性的差异。

5-16LSD检验法显示因变量group的第I个水平和第J个水平之间两两配对后,检验它们对TNF-α的影响是否存在显著性差异。不难发现,各组的多重比较之间,Sig. 0.0000.01,它们对TNF-α的影响存在显著差异。

 

图5-12  

 

 

  思考题

 

1. 实验记录的重要性在哪里?

2. 实验记录的主要内容有哪些?

3. 资料可分为几种类型?

4. 根据资料的类型如何选择正确的统计方法?

 

                                           (李丹玲 陈平雁)

 

 

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序