变异指标的意义及种类
互联网
设有甲乙两人,对同一名患者采耳垂血,检查红细胞数(万/mm 3 ),每人数五个计数盘,得结果为
合计 | 均数 | ||||||
甲 | 480 | 490 | 500 | 510 | 520 | 2500 | 500 |
乙 | 440 | 460 | 500 | 540 | 560 | 2500 | 500 |
两人计数的均数都是500,能说两人的检验技术相同吗?不能,因为甲的计数结果比较密集,而乙的分散,因此甲的检验精度显然比乙的高。从上可以看出:描述一群变量值,除用平均数等表示其集中位置外,还要说明其分散或变异情况。说明变异情况的特征值称变异指标。变异指标的种类较多,下面分别介绍极差、四分位数间距、均差、方差、标准差及变异系数。
1.极差 最大值与最小值之差称极差(或全距),符号为R,是变异指标中最简单的一种。如上例甲计数的极差为520-480=40,乙的为560-440=120。可见乙的计数较甲的波动大。一般把最小值与最大值写在括号里,附在极差的后面。如上例写成40(480~520)与120(440~560)。其单位与变量值的相同。
当调查例数增多时,遇到较大或较小极端值的机会就加大,因此最大值与极差随着例数的增多而加大,但最小值却随着例数的增多而变小。
极差计算简便,但只考虑了最小、最大值,因此易受个别极端值的影响,且随例数的多少而变动,不稳定。仅用于粗略地说明变量值的变动范围。但在正态分布中可用以估计标准值范围,详见有关文献。
2.四分位数间距 极差的不稳定主要是受两极端数值的影响,于是有人将两端数据按比例去掉一定例数,这样所得数据就比较稳定了。例如两端各去掉25%,取中间50%数据的数值范围,那么只要计算P 25 与P 75 ,求P 75 与P 25 之差即得四分位数间距,符号为Q。
Q=P 75 -P 25 (4.12)
例4.7 试计算表4.8七岁男童坐高的四分位数间距
求 P 25 的位置102×.25=.25.5.
求 P 75 的位置102×.75=.76.5.
求累计频数得:
L 25 =65,L 75 =68,
A 25 =22,A 75 =75,
f 25 =15, f 75 =13, i=1
表4.8 7岁男童的坐高
坐高(cm) | 例数(f) | 累计频数 |
61- | 1 | 1 |
62- | 3 | 4 |
63- | 4 | 8 |
64- | 14 | 22 |
65- | 15 | 37 |
66- | 21 | 58 |
67- | 17 | 75 |
68- | 13 | 88 |
69- | 7 | 95 |
70- | 5 | 100 |
71- | 2 | 102 |
合计 | 102 | ― |
代入式(4.5)得:
Q=68.12-65.23=2.89 cm
有50%的7岁男童,坐高在65.23~68.12cm之间,其四分位数间距为2.89cm。
3.均差 四分位数间距虽比极差稳定,但仍只是两点之间的距离,没有利用每个变量值的信息。于是有人计算每个变量值与均数(或中位数)差的绝对值之和,然后平均称为均差(或平均直线差)作为变异指标之一。
(4.13)
例4.8 试计算4.3中,心重的均差。
由例4.3知X=293.75g,代入式(4.13)得
4.方差 式式(4.13)中用变量值与均数之差的绝对值之和∑�X-X�,而不用离均差之和∑(X-X)是因为∑(X-X)=0,不能说明变异情况,故取绝对值以去掉负号。亦有人用平方的办法,即用离均差平方和∑(X-x ) 2 ,既去掉了负号,又提高了指标的灵敏性。因为数值愈大,平方后增大的愈多,所以离均差稍有变化,就能从指标上反映出来。例如有甲乙两组数据如下:
X | ∑�X-X� | ∑(X-X) 2 | ||||||
甲组 |
10 |
11 |
12 |
13 |
14 |
12 |
6 |
10 |
乙组 |
9 | 12 | 12 | 13 | 14 | 12 | 6 | 14 |
乙组仅有两个数据与甲组的不同,这种不同从∑�X-X�或均差上是反映不出来的,但从∑(X-X) 2 上却反映出来了。以∑(X-X) 2 组成的变异指标有方差与标准差。方差是标准差的平方,将在第八章讨论,下面先介绍标准差。