实验数据的处理

互联网2014-10-20

6315

数据处理的前提是能够正确地识别资料的类型，在此基础上，结合统计方法的适用条件，选择恰当的统计方法进行分析。

一、常见数据类型

确定总体之后，研究者应对每个观察单位的某项特征进行测量和观察，这种特征，能表现观察单位的变异性，称为变量（variable）。对变量的测得值称为变量值（value of vari-able）或观察值（observed value），由变量值构成资料（data）。可将资料分为以下几种类型：

1. 计量资料（measurement data）　又称定量资料（quantitative data）或数值变量（numer-ical variable）资料。为测定每个观察单位某项指标的大小而获得的资料，变量值是定量的，表现为数值大小，一般有度量衡单位。如调查某幼儿园3岁女童的发育状况，以女童为观察单位，女童的身高（cm）、头围（cm）、体重（kg）等资料均属此类资料。

2. 计数资料（enumeration data）　又称定性资料（qualitative data）或无序分类变量（unordered categorical variable）资料。为将观察单位按某种属性或类别分组计数，分组汇总各组观察单位数后而得到的资料。其变量值是定性的，表现为互不相容的属性或类别，如将试验的结果分为阳性、阴性的二分类或将人类血型分为A、B、AB、O型的多分类。

3. 等级资料（ranked data）　又称半定量资料（semi-quantitative data）或有序分类变量（ordinal categorical variable）资料。将观察单位按某种属性的不同程度分成等级后分组计数，分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质，表现为等级大小或属性程度。如观察患者尿液中的蛋白含量，以人为观察单位，根据反应强度，结果可分 - 、±、＋、＋＋、＋＋＋、＋＋＋＋六级。

统计分析方法的选用，是与资料类型密切联系的。在资料分析过程中，根据需要在有关专业理论指导下，各类资料间可以互相转化，以满足不同统计分析方法的要求。对于能测量的指标，尽可能设计为定量指标，这将为分析中的资料转化带来方便；此外，对于那些原本为计数或等级的资料，在资料分析过程中，为满足某些统计分析方法的要求（如各类回归分析的要求），有时要在有关理论和实践的指导下设法转化为计量资料，称为资料或指标的量化，具体内容请参考相关专业书籍。

二、实验数据的质量评价

实验数据的质量直接影响到研究结果的科学性和可靠性。数据质量有两方面的含义，即数据是否准确和可靠，常用效度（validity）和信度（reliability）两个指标评价。

1. 效度　效度是指测量值与真值的接近程度，故又称为准确度（accuracy），用以度量测量数据系统误差（systematic error）的大小，一般采用回收实验中的回收率指标进行评价（公式5.1），即回收率愈接近100％，准确度愈高；当回收率偏离100％较大时，表示测量方法存在系统误差。注意回收率可以大于100％。

2. 信度　信度是指同一观察对象多次重复测量结果之间的吻合程度，故又称之为精确度（precision），用于度量随机误差（random error）的大小，常用标准差、变异系数或组内相关系数（interclass correlation coefficient）等指标度量，前两者愈小，或后两者愈大，表示随机误差愈小；或吻合程度愈高，亦说明测量数据的重现性愈好，数据的可靠程度愈高。

三、选择正确的统计方法

计量资料的统计分析方法可以分为两大类，即参数、非参数统计方法，若原始数据满足正态分布和方差齐性要求，可用参数方法；若不满足正态分布和方差齐性要求，可选择非参数方法。多数情况下，医学中的计量数据符合正态分布，因而参数方法是较为常用的分析方法。需强调的是，如果资料满足参数方法的条件，就不选用非参数方法处理，以避免降低检验效率和损失信息。两个样本均值比较时，如果方差齐性，用t检验；多个样本均数比较用方差分析。

计数资料一般情况下选用χ²检验或秩和检验，比如，两样本率的比较时常采用χ²检验。对于等级资料，常使用秩和检验，虽然也有文献介绍用χ²检验处理，但χ²检验只能说明两组或多组之间的分布有无差异，而不能说明两组或多组之间量方面的差异。等级资料又称单向有序列联表资料，在应用秩和检验公式时，一律用校正公式。

四、运用SPSS13.0 统计几种常见实验数据

SPSS（Statistical Package for Social Sciences，社会科学统计软件包）是国际上最流行并最具权威的统计分析软件之一。其最显著特点是菜单和对话框操作方式，绝大多数操作过程仅靠鼠标即可完成，易于操作，因而成为非统计专业人员应用最多的统计软件，也是国际期刊引用最多的统计软件。

（一）主要窗口及其功能

1．数据编辑窗口（Data Editor）

（1）启动SPSS以后，点击 File→New→Data。通常，数据文件的格式以每行为一个记录（Case），每列为一个变量（Variable）。

（2）定义变量：

在数据编辑窗口底端选择Variable View页，可以设置以下项目。

※ NAME：变量名。若不设置，系统将依次定义为“var0001”“var0002”“var0003”……

※ TYPE：变量类型，系统默认为Numeric。

2．数据文件的调用　SPSS所处理的数据文件有两种来源：一是在SPSS环境下新建数据文件，如SPSS 的.sav；二是从SPSS外部调用已建立的数据文件，如Excel的.xls，dBASE的?鄢.dbf，文本文件.txt。方法： File→Open→Data。

3. 输出结果的编辑　SPSS的所有计算结果均输出在Output SPSS Viewer窗口中图5-1），在此窗口，其结果为其他应用软件共享（如Word）。结果输出窗口分为左右两个窗口： “标题窗”和 “结果显示窗”。

图5-1

可将结果粘贴在Word文件中，在结果显示窗内选择要粘贴内容后，单击鼠标右键，在弹出菜单中选择Copy或Copy objects。然后打开Word文件，选择粘贴命令，粘贴于预定位置。

注意选择Copy与Copy objects的区别。若选择Copy，则每次只能选择一项输出内容，如果选择统计表，则统计表粘贴在Word文件中时转变为文本格式。若选择Copy objects，则每次可选择多项内容或全部输出结果，且统计表粘贴在Word文件中时，仍为图形方式。

存储结果文件时，从菜单选择 File→Save 然后键入文件名。SPSS的结果文件以.spo为默认后缀。

（二）t 检验

1．配对样本t 检验（Paired-Samples T Test）

（1）用途：用于检验来自正态总体的两个彼此相关的样本均值之间的差异。

（2）示例：随机抽取了8份某种品牌酸奶制品，分别用高效液相色谱法（High）和奶粉蛋白快速检测盒（kit）测定其蛋白质含量（%），比较两种方法测定结果是否不同。

（3）数据格式：共2列，第1列为“高效液相色谱法”，第2列为“奶粉蛋白快速检测盒测定法”所测酸奶中蛋白质含量（图5-2）。

图5-2

（4）配对样本t检验：Analyze→Compare Means→Paired-Samples T Test ，弹出配对t检验对话框（Paired-Samples T Test），按住Shift键，用鼠标同时选取两个变量，并将其选入右侧列表Paired Variables框内。击Ok按钮开始配对t检验。

（5）结果：列出了配对样本统计量（Paired Samples Statistics ），见图5-3；配对样本相关性检验（Paired Samples Correlations）见图5-4；配对样本t检验（Paired Samples Test）见图5-5。

图5-3

图5-4

图5-5

图5-7列出了两配对样本的均值、样本容量、标准差以及平均标准差。

图5-8中Correlation（相关系数），显示配对样本的线性相关性。相关系数为0.830，线性关系的显著性概率Sig.＝0.011＜0.05，说明两种方法所测的蛋白质含量具有较高的线性相关性。

图5-9中Paired Differences表示配对变量数值差，列出了成对样本数值差的统计量值。t统计量值t＝6.377；自由度＝7。t检验的双尾显著性概率Sig.＝0.000＜0.01，说明两种方法所测的蛋白质含量具有显著差异。

2．独立样本t检验（Independent-Samples t Test）

（1）用途：用于检验来自正态总体的两个彼此独立的样本均值之间的差异。

（2）示例：1型糖尿病SD大鼠16只，每组8只分别给予消糖胶囊以及蒸馏水作为治疗组和对照组，假定两组测量结果服从正态分布。设显著性水平为0.05，试问24h尿蛋白（mg）在两组间有无差别。原始数据如下：

表5-10 24尿蛋白测定值

治疗组 14.72 15.00 13.00 15.62 16.32 14.34 14.45 13.79

对照组 18.00 18.72 17.89 17.00 19.01 18.22 17.95 16.99

（3）数据格式：（图5-10）共2列，第1列为两组尿蛋白测定值，第2列为分组标记，分别用1、2表示“治疗组”和“对照组”见图5-6。

图5-6

（4）独立样本t检验：Analyze→Compare Means→Independent-Samples t Test 弹出独立样本t检验对话框。选“protein”为Test Variable，选“group”为Grouping Variable。点击Define Groupsv…，在Group1、2中分别填入1，2为分组标志，单击Continue开始计算。

（5）结果：列出了分组统计量表（Group Statistics）（在此略）和独立样本T检验（Independent Samples Test）见图5-7。分组统计量表列出以下参数：两组样本的均值、样本容量、标准差以及平均标准差。

图5-7

图5-11中Levene’s Test for Equality of Variances为方差齐性检验，在Equal variances assumed（等方差假设）下，F＝0.777，显著性概率Sig.＝0.393> 0.05，可以认为两组所测的尿蛋白的方差是齐性的。

t-test for Equality of Means为两样本均数的t检验，检验结果有： t统计量＝-7.461，自由度为14；t分布的双尾性概率Sig.＝0.000＜0.01，因此认为两组所测的尿蛋白具有显著性差异。

（三）χ2检验

1．用途　用于推断两个总体率或构成比之间有无差别。

2．示例　①经通络胶囊；②烟酸片。降低高脂血症疗效是否有差别?原始数据如下。

级别（group）有效（valid）无效（invalid）

① 99 5

② 75 21

3．数据格式　共3列，第1列为“例数n”；第2列分别用1、2表示是否有效，有效为1，无效为2；第3列表示分组情况，1为经通络胶囊组，2为烟酸片组（图5-8）。

图5-8 四格表χ2检验数据录入

4. χ2检验　说明频数变量，从菜单选择 Data→Weight Cases→Weight Cases By，选入表示“例数n”的变量→Ok。

从菜单选择 Analyze→Descriptive Statistics→Crosstabs，弹出Crosstabs对话框，选表示“valid”的变量为Rows；选表示“group”的变量为Columns。点击Statistics…，选 Chi-square→ Continue→Ok。

5．结果　列出了χ2检验（Chi-Square Tests），见图5-9。

图5-9

图5-13中χ2值为12.857，自由度为1，显著性概率为0.000，因此，认为两种药物降低血脂总体有效率不等。

（四）单因素方差分析

1．用途　用于推断多个样本均数比较的分析。

2．示例　为了研究肿瘤坏死因子α （TNF-α）在糖尿病发生、发展中的作用，分别从胰岛素抵抗糖尿病患者①，非胰岛素抵抗糖尿病患者②以及一组正常人③中随机抽取8人，比较TNF-α的浓度ng/L在三组间有无差别。原始数据如下：

1 68.00 67.00 67.01 86.00 69.80 72.55 65.01 69.77

2 55.18 53.67 50.18 58.12 59.33 54.78 53.99 57.12

3 43.78 45.88 42.67 45.02 43.89 44.04 46.04 48.12

3．数据格式　输成2列，第1列为“TNF-α”的浓度ng/L，第2列为“group”，其中，分别以1、2、3来表示“胰岛素抵抗糖尿病患者”组、“非胰岛素抵抗糖尿病患者”组以及 “正常人”组。

4．方差分析　选择 Analyze→Compare Means→One Way Analysis of Variance

（1）Dependent：因变量。本例选“TNF-α”； Factor：因素，本例选择 “group”。

（2）Post Hoc…：多重比较。选择LSD，用t检验完成各组间的配对比较。Significance level：0.05。

（3）Options选择项　Statistics选择Descriptive以及Homogeneity of variance test（计算Levene统计量值检验各组的方差齐性）。

5．结果　列出了描述性统计（Descriptives）意义同前，此处略；方差齐性检验（Test of Homogeneity of Variances）见图5-10；单因素方差分析（ANOVA）见图5-14；多重比较检验（Multiple Comparisons）见图5-11。

图5-10

图5-14中Levene统计量值为2．158，第一、二自由度分别为2、21，显著性概率Sig ＝0．141＞0．05，因此各组样本方差齐性。

图5-11

图5 -12 单因素方差分析表的结果分析如下：

（1）表内第一列为方差来源，它们是Between Groups （组间），Within Groups（组内），Total（总平方和）。

（2）Sum of Squares（平方和），组间平方和为2677.598，组内平方和为385.134，总平方和为3062.731。

（3）df为自由度，组间平方和、组内平方和以及总平方和的自由度分别为2、21、23。

（4）Mean Square 为均方，均方等于平方和与自由度之商。组间均方为1338. 799，组内均方为18.340。

（5）F为组间均方除以组内均方的商，F为73.000。

（6）Sig.为F分布的显著性概率，Sig.＝0.000＜0.05。因此接受原假设，认为TNF-α的浓度ng/L在三组间有显著性的差异。

图5-16中LSD检验法显示因变量group的第I个水平和第J个水平之间两两配对后，检验它们对TNF-α的影响是否存在显著性差异。不难发现，各组的多重比较之间，Sig.＝ 0.000＜0.01，它们对TNF-α的影响存在显著差异。

图5-12

思考题

1．实验记录的重要性在哪里?

2．实验记录的主要内容有哪些?

3．资料可分为几种类型?

4．根据资料的类型如何选择正确的统计方法?

（李丹玲　陈平雁）

关于丁香通

公司信息

个人用户

企业机构

无忧采购轻松科研

提问

扫一扫

实验小助手

扫码领资料

反馈

TOP

打开小程序