丁香实验_LOGO
登录
提问
提问
我要登录
|免费注册
丁香通
点赞
收藏
wx-share
分享

实验数据的处理

互联网

2692

数据处理的前提是能够正确地识别资料的类型,在此基础上,结合统计方法的适用条件,选择恰当的统计方法进行分析。 <o:p></o:p>

一、常见数据类型 <o:p></o:p>

确定总体之后,研究者应对每个观察单位的某项特征进行测量和观察,这种特征,能表现观察单位的变异性,称为变量(variable)。对变量的测得值称为变量值(value of vari-able)或观察值(observed value),由变量值构成资料(data)。可将资料分为以下几种类型: <o:p></o:p>

1. 计量资料(measurement data) 又称定量资料(quantitative data)或数值变量(numer-ical variable)资料。为测定每个观察单位某项指标的大小而获得的资料,变量值是定量的,表现为数值大小,一般有度量衡单位。如调查某幼儿园3岁女童的发育状况,以女童为观察单位,女童的身高(cm)、头围(cm)、体重(kg)等资料均属此类资料。 <o:p></o:p>

<o:p> </o:p>

2. 计数资料(enumeration data) 又称定性资料(qualitative data)或无序分类变量(unordered categorical variable)资料。为将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别,如将试验的结果分为阳性、阴性的二分类或将人类血型分为ABABO型的多分类。 <o:p></o:p>

3. 等级资料(ranked data) 又称半定量资料(semi-quantitative data)或有序分类变量 (ordinal categorical variable)资料。将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。如观察患者尿液中的蛋白含量,以人为观察单位,根据反应强度,结果可分 - 、±、+、++、+++、++++六级。 <o:p></o:p>

统计分析方法的选用,是与资料类型密切联系的。在资料分析过程中,根据需要在有关专业理论指导下,各类资料间可以互相转化,以满足不同统计分析方法的要求。对于能测量的指标,尽可能设计为定量指标,这将为分析中的资料转化带来方便;此外,对于那些原本为计数或等级的资料,在资料分析过程中,为满足某些统计分析方法的要求(如各类回归分析的要求),有时要在有关理论和实践的指导下设法转化为计量资料,称为资料或指标的量化,具体内容请参考相关专业书籍。 <o:p></o:p>

二、实验数据的质量评价 <o:p></o:p>

实验数据的质量直接影响到研究结果的科学性和可靠性。数据质量有两方面的含义,即数据是否准确和可靠,常用效度(validity)和信度(reliability)两个指标评价。 <o:p></o:p>

1. 效度 效度是指测量值与真值的接近程度,故又称为准确度(accuracy),用以度量测量数据系统误差(systematic error)的大小,一般采用回收实验中的回收率指标进行评价(公式5.1),即回收率愈接近100%,准确度愈高;当回收率偏离100%较大时,表示测量方法存在系统误差。注意回收率可以大于100%。

2. 信度 信度是指同一观察对象多次重复测量结果之间的吻合程度,故又称之为精确度(precision),用于度量随机误差(random error)的大小,常用标准差、变异系数或组内相关系数(interclass correlation coefficient)等指标度量,前两者愈小,或后两者愈大,表示随机误差愈小;或吻合程度愈高,亦说明测量数据的重现性愈好,数据的可靠程度愈高。

三、选择正确的统计方法 <o:p></o:p>

计量资料的统计分析方法可以分为两大类,即参数、非参数统计方法,若原始数据满足正态分布和方差齐性要求,可用参数方法;若不满足正态分布和方差齐性要求,可选择非参数方法。多数情况下,医学中的计量数据符合正态分布,因而参数方法是较为常用的分析方法。需强调的是,如果资料满足参数方法的条件,就不选用非参数方法处理,以避免降低检验效率和损失信息。两个样本均值比较时,如果方差齐性,用t检验;多个样本均数比较用方差分析。 <o:p></o:p>

计数资料一般情况下选用χ2检验或秩和检验,比如,两样本率的比较时常采用χ2检验。对于等级资料,常使用秩和检验,虽然也有文献介绍用χ2检验处理,但χ2检验只能说明两组或多组之间的分布有无差异,而不能说明两组或多组之间量方面的差异。等级资料又称单向有序列联表资料,在应用秩和检验公式时,一律用校正公式。

四、运用SPSS13.0 统计几种常见实验数据 <o:p></o:p>

SPSSStatistical Package for Social Sciences,社会科学统计软件包)是国际上最流行并最具权威的统计分析软件之一。其最显著特点是菜单和对话框操作方式,绝大多数操作过程仅靠鼠标即可完成,易于操作,因而成为非统计专业人员应用最多的统计软件,也是国际期刊引用最多的统计软件。 <o:p></o:p>

(一)主要窗口及其功能 <o:p></o:p>

1. 数据编辑窗口(Data Editor <o:p></o:p>

1)启动SPSS以后,点击 FileNewData。通常,数据文件的格式以每行为一个记录(Case),每列为一个变量(Variable)。 <o:p></o:p>

2)定义变量: <o:p></o:p>

在数据编辑窗口底端选择Variable View页,可以设置以下项目。 <o:p></o:p>

NAME:变量名。若不设置,系统将依次定义为“var0001”“var0002”“var0003”…… <o:p></o:p>

TYPE:变量类型,系统默认为Numeric <o:p></o:p>

2. 数据文件的调用 SPSS所处理的数据文件有两种来源:一是在SPSS环境下新建数据文件,如SPSS 的.sav;二是从SPSS外部调用已建立的数据文件,如Excel.xlsdBASE?.dbf,文本文件.txt。方法: FileOpenData <o:p></o:p>

3. 输出结果的编辑 SPSS的所有计算结果均输出在Output SPSS Viewer窗口中图5-1),在此窗口,其结果为其他应用软件共享(如Word)。结果输出窗口分为左右两个窗口: “标题窗”和 “结果显示窗”。

图5-1

可将结果粘贴在Word文件中,在结果显示窗内选择要粘贴内容后,单击鼠标右键,在弹出菜单中选择CopyCopy objects。然后打开Word文件,选择粘贴命令,粘贴于预定位置。 <o:p></o:p>

注意选择CopyCopy objects的区别。若选择Copy,则每次只能选择一项输出内容,如果选择统计表,则统计表粘贴在Word文件中时转变为文本格式。若选择Copy objects,则每次可选择多项内容或全部输出结果,且统计表粘贴在Word文件中时,仍为图形方式。 <o:p></o:p>

存储结果文件时,从菜单选择 FileSave 然后键入文件名。SPSS的结果文件以.spo为默认后缀。 <o:p></o:p>

(二)t 检验 <o:p></o:p>

1. 配对样本t 检验(Paired-Samples T Test <o:p></o:p>

1)用途:用于检验来自正态总体的两个彼此相关的样本均值之间的差异。 <o:p></o:p>

2)示例:随机抽取了8份某种品牌酸奶制品,分别用高效液相色谱法(High)和奶粉蛋白快速检测盒(kit)测定其蛋白质含量(%),比较两种方法测定结果是否不同。 <o:p></o:p>

3)数据格式:共2列,第1列为“高效液相色谱法”,第2列为“奶粉蛋白快速检测盒测定法”所测酸奶中蛋白质含量(图5-2)。

5-2

4)配对样本t检验:AnalyzeCompare MeansPaired-Samples T Test ,弹出配对t检验对话框(Paired-Samples T Test),按住Shift键,用鼠标同时选取两个变量,并将其选入右侧列表Paired Variables框内。击Ok按钮开始配对t检验。 <o:p></o:p>

5)结果:列出了配对样本统计量(Paired Samples Statistics ),见图5-3;配对样本相关性检验(Paired Samples Correlations)见图5-4;配对样本t检验(Paired Samples Test)见图5-5

5-3

5-4

5-5

5-7列出了两配对样本的均值、样本容量、标准差以及平均标准差。

5-8Correlation(相关系数),显示配对样本的线性相关性。相关系数为0.830,线性关系的显著性概率Sig.0.0110.05,说明两种方法所测的蛋白质含量具有较高的线性相关性。

5-9Paired Differences表示配对变量数值差,列出了成对样本数值差的统计量值。t统计量值t6.377;自由度=7t检验的双尾显著性概率Sig.0.0000.01,说明两种方法所测的蛋白质含量具有显著差异。 <o:p></o:p>

2. 独立样本t检验(Independent-Samples t Test <o:p></o:p>

1)用途:用于检验来自正态总体的两个彼此独立的样本均值之间的差异。 <o:p></o:p>

2)示例:1型糖尿病SD大鼠16只,每组8只分别给予消糖胶囊以及蒸馏水作为治疗组和对照组,假定两组测量结果服从正态分布。设显著性水平为0.05,试问24h尿蛋白(mg)在两组间有无差别。原始数据如下: <o:p></o:p>

5-10 24尿蛋白测定值 <o:p></o:p>

治疗组 14.72 15.00 13.00 15.62 16.32 14.34 14.45 13.79 <o:p></o:p>

对照组 18.00 18.72 17.89 17.00 19.01 18.22 17.95 16.99

3)数据格式:(图5-10)共2列,第1列为两组 尿蛋白测定值,第2列为分组标记,分别用12表示“治疗组”和“对照组”见图5-6

<o:p> </o:p>

<o:p> 图5-6 </o:p>

<o:p> <p class="MsoPlainText"><span>(<span>4</span>)独立样本<span>t</span>检验:<span>Analyze</span>→<span>Compare Means</span>→<span>Independent-Samples t Test </span>弹出独立样本<span>t</span>检验对话框。选“<span>protein</span>”为<span>Test Variable</span>,选“<span>group</span>”为<span>Grouping Variable</span>。点击<span>Define Groupsv</span>…,在<span>Group1</span>、<span>2</span>中分别填入<span>1</span>,<span>2</span>为分组标志,单击<span>Continue</span>开始计算。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(</span><span>5</span><span>)结果:列出了分组统计量表(</span><span>Group Statistics</span><span>)(在此略)和独立样本</span><span>T</span><span>检验(</span><span>Independent Samples Test</span><span>)见图</span><span>5-7</span><span>。分组统计量表列出以下参数:两组样本的均值、样本容量、标准差以及平均标准差。</span></p> <p class="MsoPlainText"><span></span></p> <p><span><span> <o:p> 图5-7 </o:p></span></span></p> <span><span> <o:p> <p class="MsoPlainText"><span>图<span>5-11</span>中<span>Levene’</span><span>s Test for Equality of Variances</span>为方差齐性检验,在<span>Equal variances assumed</span>(等方差假设)下,<span>F</span>=<span>0.777</span>,显著性概率<span>Sig.</span>=<span>0.393> 0.05</span>,可以认为两组所测的尿蛋白的方差是齐性的。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>t-test for Equality of Means</span><span>为两样本均数的<span>t</span>检验,检验结果有:<span> t</span>统计量=<span>-7.461</span>,自由度为<span>14</span>;<span>t</span>分布的双尾性概率<span>Sig.</span>=<span>0.000</span><<span>0.01</span>,因此认为两组所测的尿蛋白具有显著性差异。</span></p> <span> <p class="MsoPlainText"><span>(三)χ<span>2</span>检验<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>1</span><span>. 用途 用于推断两个总体率或构成比之间有无差别。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>2</span><span>. 示例 ①经通络胶囊;②烟酸片。降低高脂血症疗效是否有差别<span>?</span>原始数据如下。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>级别(<span>group</span>)<span><span> </span></span>有效(<span>valid</span>)<span><span> </span></span>无效(<span>invalid</span>)<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span> ①<span><span> </span>99<span> </span>5 <o:p></o:p></span></span></p> <p class="MsoPlainText"><span> ②<span><span> </span>75<span> </span>21 <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>3</span><span>.</span><span> </span><span>数据格式 共</span><span>3</span><span>列,第</span><span>1</span><span>列为“例数</span><span>n</span><span>”;第</span><span>2</span><span>列分别用</span><span>1</span><span>、</span><span>2</span><span>表示是否有效,有效为</span><span>1</span><span>,无效为</span><span>2</span><span>;第</span><span>3</span><span>列表示分组情况,</span><span>1</span><span>为经通络胶囊组,</span><span>2</span><span>为烟酸片组(图</span><span>5-8</span><span>)。</span></p><span></span> <p class="MsoPlainText"><span> <o:p> </o:p></span></p> <p class="MsoPlainText"><span> <o:p> 图<span>5-8 <span>四格表χ<span>2</span>检验数据录入<span> <o:p></o:p></span></span></span> </o:p></span></p><span> <o:p> <span> <p class="MsoPlainText"><span><span> <o:p></o:p></span></span> </p> <p class="MsoPlainText"><span>4. </span><span>χ<span>2</span>检验 说明频数变量,从菜单选择<span> Data</span>→<span>Weight Cases</span>→<span>Weight Cases By</span>,选入表示“例数<span>n</span>”的变量→<span>Ok</span>。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>从菜单选择<span> Analyze</span>→<span>Descriptive Statistics</span>→<span>Crosstabs</span>,弹出<span>Crosstabs</span>对话框,选表示“<span>valid</span>”的变量为<span>Rows</span>;选表示“<span>group</span>”的变量为<span>Columns</span>。点击<span>Statistics</span>…,选<span> Chi-square</span>→<span> Continue</span>→<span>Ok</span>。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>5</span><span>.</span><span> </span><span>结果 列出了χ</span><span>2</span><span>检验(</span><span>Chi-Square Tests</span><span>),见图</span><span>5-9</span><span>。</span></p> <p class="MsoPlainText"><span></span></p> <p class="MsoPlainText"><span>图<span>5-9</span></span></p><span><span> <p class="MsoPlainText"><span>图<span>5-13</span>中χ<span>2</span>值为<span>12.857</span>,自由度为<span>1</span>,显著性概率为<span>0.000</span>,因此,认为两种药物降低血脂总体有效率不等。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(四)单因素方差分析<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>1</span><span>. 用途 用于推断多个样本均数比较的分析。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>2</span><span>. 示例 为了研究肿瘤坏死因子α (<span>TNF-</span>α)在糖尿病发生、发展中的作用,分别从胰岛素抵抗糖尿病患者①,非胰岛素抵抗糖尿病患者②以及一组正常人③中随机抽取<span>8</span>人,比较<span>TNF-</span>α的浓度<span>ng/L</span>在三组间有无差别。原始数据如下:<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>1<span> </span>68.00<span> </span>67.00<span> </span>67.01<span> </span>86.00<span> </span>69.80<span> </span>72.55<span> </span>65.01<span> </span>69.77 <o:p></o:p></span></p> <p class="MsoPlainText"><span>2<span> </span>55.18<span> </span>53.67<span> </span>50.18<span> </span>58.12<span> </span>59.33<span> </span>54.78<span> </span>53.99<span> </span>57.12 <o:p></o:p></span></p> <p class="MsoPlainText"><span>3<span> </span>43.78<span> </span>45.88<span> </span>42.67<span> </span>45.02<span> </span>43.89<span> </span>44.04<span> </span>46.04<span> </span>48.12 <o:p></o:p></span></p> <p class="MsoPlainText"><span>3</span><span>. 数据格式 输成<span>2</span>列,第<span>1</span>列为“<span>TNF-</span>α”的浓度<span>ng/L</span>,第<span>2</span>列为“<span>group</span>”,其中,分别以<span>1</span>、<span>2</span>、<span>3</span>来表示“胰岛素抵抗糖尿病患者”组、“非胰岛素抵抗糖尿病患者”组以及 “正常人”组。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>4</span><span>. 方差分析 选择<span> Analyze</span>→<span>Compare Means</span>→<span>One Way Analysis of Variance <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(<span>1</span>)<span>Dependent</span>:因变量。本例选“<span>TNF-</span>α”;<span> Factor</span>:因素,本例选择 “<span>group</span>”。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(<span>2</span>)<span>Post Hoc</span>…:多重比较。选择<span>LSD</span>,用<span>t</span>检验完成各组间的配对比较。<span>Significance level</span>:<span>0.05</span>。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(<span>3</span>)<span>Options</span>选择项 <span>Statistics</span>选择<span>Descriptive</span>以及<span>Homogeneity of variance test</span>(计算<span>Levene</span>统计量值检验各组的方差齐性)。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>5</span><span>. 结果 列出了描述性统计(<span>Descriptives</span>)意义同前,此处略;方差齐性检验(<span>Test of Homogeneity of Variances</span>)见图5<span>-</span>10;单因素方差分析(<span>ANOVA</span>)见图<span>5-</span>14;多重比较检验(<span>Multiple Comparisons</span>)见图5<span>-</span>11。</span></p> <p class="MsoPlainText"><span><span> <o:p> </o:p></span></span></p> <p class="MsoPlainText"><span><span> <o:p> 图5<span>-</span>10 </o:p></span></span></p> <p class="MsoPlainText"><span>图<span>5-14</span>中<span>Levene</span>统计量值为<span>2</span>.<span>158</span>,第一、二自由度分别为<span>2</span>、<span>21</span>,显著性概率<span>Sig </span>=<span>0</span>.<span>141</span>><span>0</span>.<span>05</span>,因此各组样本方差齐性。<span> <o:p></o:p></span></span></p></span></span></span> </o:p></span></span> <p class="MsoPlainText"><span><span> <o:p></o:p></span></span> </p> <p class="MsoPlainText"><span><span> <o:p> </o:p></span></span></p> <p class="MsoPlainText"><span><span> <o:p> 图5<span>-</span>11 </o:p></span></span></p> <p class="MsoPlainText"><span><span> <o:p> <span><span><span><span> <o:p> 图5 <span>-</span>12 </o:p></span></span>单因素方差分析表的结果分析如下:</span></span> </o:p></span></span></p> <span><span> <o:p> <span><span> <p class="MsoPlainText"><span>(<span>1</span>)表内第一列为方差来源,它们是<span>Between Groups </span>(组间),<span>Within Groups</span>(组内),<span>Total</span>(总平方和)。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(<span>2</span>)<span>Sum of Squares</span>(平方和),组间平方和为<span>2677.598</span>,组内平方和为<span>385.134</span>,总平方和为<span>3062.731</span>。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(<span>3</span>)<span>df</span>为自由度,组间平方和、组内平方和以及总平方和的自由度分别为<span>2</span>、<span>21</span>、<span>23</span>。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(<span>4</span>)<span>Mean Square </span>为均方,均方等于平方和与自由度之商。组间均方为<span>1338. 799</span>,组内均方为<span>18.340</span>。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(<span>5</span>)<span>F</span>为组间均方除以组内均方的商,<span>F</span>为<span>73.000</span>。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>(<span>6</span>)<span>Sig.</span>为<span>F</span>分布的显著性概率,<span>Sig.</span>=<span>0.000</span><<span>0.05</span>。因此接受原假设,认为<span>TNF-</span>α的浓度<span>ng/L</span>在三组间有显著性的差异。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>图<span>5-16</span>中<span>LSD</span>检验法显示因变量<span>group</span>的第<span>I</span>个水平和第<span>J</span>个水平之间两两配对后,检验它们对<span>TNF-</span>α的影响是否存在显著性差异。不难发现,各组的多重比较之间,<span>Sig.</span>=<span> 0.000</span><<span>0.01</span>,它们对<span>TNF-</span>α的影响存在显著差异。<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span> <o:p> </o:p></span></p> <p class="MsoPlainText"><span> <o:p> 图5-12 </o:p></span><span> <o:p> </o:p></span></p> <p class="MsoPlainText"><span> <o:p> </o:p></span></p> <p class="MsoPlainText"><span> <o:p> </o:p></span></p> <p class="MsoPlainText"><span><span> </span></span><span>思考题<span> <o:p></o:p></span></span></p> <p class="MsoPlainText"><span> <o:p> </o:p></span></p> <p class="MsoPlainText"><span>1</span><span>. 实验记录的重要性在哪里<span>? <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>2</span><span>. 实验记录的主要内容有哪些<span>? <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>3</span><span>. 资料可分为几种类型<span>? <o:p></o:p></span></span></p> <p class="MsoPlainText"><span>4</span><span>. 根据资料的类型如何选择正确的统计方法<span>? <o:p></o:p></span></span></p> <p class="MsoPlainText"><span> <o:p> </o:p></span></p> <p class="MsoPlainText"><span> (李丹玲 陈平雁)</span></p> <p class="MsoPlainText"> </p></span> <p> </p> </span> </o:p></span></span> </o:p></span></span> </o:p>
提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序