标准误与可信区间-- 抽样误差与标准误
互联网
第六章 标准误与可信区间
第一节 抽样误差与标准误
一、抽样误差的意义
在第一章第二节曾提到过样本与总体以及抽样误差的概念,那里谈到,由于存在人与人之间的个体差异,即使从同一总体用同样方法随机抽取例数相同的一些样本,各样本算得的某种指标,如平均数(或率),通常也参差不齐存在一定的差异。样本指标与相应的总体指标之间有或多或少的相差,这一点是不难理解的。如某医生从某地抽了120名12岁男孩,测量其身高,计算出均数为143.10cm,若再从该地抽120名12岁男孩,其平均身高未必仍等于143.10cm,也不一定恰好等于某市12岁男孩身高的总体均数,这种差异,即由于抽样而带来的样本与总体间的误差,统计上叫抽样波动或抽样误差。
抽样误差和系统误差不一样,关系系统误差,当人们一旦发现它之后,是可能找到产生原因而采取一定措施加以纠正的,抽样误差则无法避免。因为客观上既然存在个体差异,那么刚巧这一样本中多抽到几例数值大些的,所求样本均数就会稍大,另一样本多抽到几例数值小些,该样本均数就会稍小,这是不言而喻的。
抽样误差既是样本指标与总体指标之间的误差,那么抽样误差小就表示从样本算得的平均数或率与总体的较接近,有样本代表总体说明其特征的可靠性亦大。但是,通常总体均数或总体率我们并不知道,所以抽样误差的数量大小,不能直观地加以说明,只能通过抽样实验来了解抽样误差的规律性。
二、标准误及其计算
为了表示个体差异的大小,或者说表示某一变量变异程度的大小,可计算标准差等变异指标来说明,现在我们要表示抽样误差的大小,如要问,从同一总体抽取类似的许多样本,各样本均数(或各率)之间的变异程度如何?也可用变异指标来说明。这种指标是:
(一)均数的标准误 为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。下面用抽样实验进一步说明之。
将100名正常人的红细胞数(万/mm 3 )写在100颗大小均匀的豌豆上。这些红细胞数见表6.1,其均数为500,标准差为43。把这些豌豆放在一个口袋里,彻底混匀后取出一颗,记下红细胞数,放回袋内,混匀后再取出一颗,记下数字后再放回去,如此继续下去,这是一个取不完的总体,这样每取10个数字作为一个样本,共抽取了一百个样本,并计算每一样本的均数与标准差,例见表6.2。
表6.1 红细胞数抽样实验用的正态总体
μ=500 σ=43(单位:万/立方厘米)
383 410 422 429 430 431 435 442 442 444 445 449 450 452 455 456 459 461 462 463 465 466 468 469 470 471 472 473 476 477 478 479 480 481 482 484 485 486 487 488 489 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 511 512 513 514 515 516 518 519 520 521 522 523 524 527 528 529 530 531 532 534 535 537 538 539 541 544 545 548 550 551 555 556 558 565 569 578 590 599 600 617表6.2 红细胞数抽样实验中的样本举例
样本号 红细胞数(万/立方毫米),X X S 1 383 599 534 442 435 486 478 476 509 544 488.6 61.65 2 503 506 520 503 489 410 528 488 509 527 498.3 33.97 3 478 463 617 544 498 485 496 462 482 569 509.4 50.96 4 529 465 535 473 531 532 556 521 459 383 498.4 52.63 5 442 493 462 527 520 519 521 512 482 471 494.9 29.51 ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇ ┇第一号样本均数与标准差的计算:
X=4.886/10=488.6
将一百个样本均数加总,得到的数值为50,096.7,又这一百个样本均数平方之和为25,114,830.91,于是代入标准差的计算公式,求得一百个样本均数的标准差又称标准误为
当总体标准差已知时,可计算理论的标准误σ χ ,公式是
表6.1抽样实验用的总体标准差是43,每个样本的例数是10,代入公式得
可见由一百个样本均数求得的标准误13.50与理论的标准误13.60比较接近。
在实际工作中,总体标准差往往并不知道,也不象抽样实验那样从同一总体随机抽取n相等的许多样本,而是只有手头一个样本。在此情况下,只能以样本标准差S作为总体标准差σ的估计值。这样,公式6.1中的σ就要用S代替,σ χ 改为S χ ,以资区别。
(6.2)
将第1号样本的标准差及例数代入式6.2,得