在上一博认识完 α 和 β 后,我们继续深入探讨一下 β 。。。
在很多情况下,我们会经常遇到临床试验的结果是 Non-positivie(P>0.05),此时你会怎么解释呢?有的同学比较干脆,看到 p>0.05,就立马认为两种药无差别,更有甚者,如果对照组是安慰剂的话,那这个药就被判定为无效,彻底 over了。当然这些同学未免有点武断了,其实大多数情况下,这是由于under-powered 造成的,下边就给大家举个例子看看吧。。。
咱保护人家的知识产权,先说明这个例子的 referencnce 为: Arch Pediatr Adolesc Med. 2006;160(11):1126-1129, 仅供咱参考学习之用。
试验是这样的:
本试验比较 Duct Tape 和 placebo 治疗小学儿童人乳头瘤病毒(疣)的疗效,主要疗效指标是 6 周后的 wart resolution,最后的试验结果是 Duct Tape 组 16%,placebo 组 6%,p=0.12。
看到这个结果,你会得出啥结论?别,咱先别急,先看看它的最初的样本含量和把握度设计的叙述:
根据以往综述,placebo 治疗 10 周后约有 30% 的 wart resolution。假设双测检验 0.05 显著水平,每组需要 39 例病人才能有 80% 的把握检验出 Duct Tape 和 placebo 组 wart resolution30% 的的差异。考虑到失访,最终入组 100 例(每组 50 例)。
看完这个叙述,你应该会发现点东西了吧,对!研究者过高地估计了 placebo 的 wart resolution,同时也过高地估计了两组之间的差别。研究者那个后悔啊,肠子都悔青了,后来经过反省,他发现了俩估计上的问题:
(1)人家以前的综述,是说 10 周后的 wart resolution 是 30%,本试验主要指标是 6 周后的 wart resolution,当然这个率应该低一些;
(2)与 placebo30% 的差别,也太过于自信了吧,人家临床上觉得你的药有 15% 的提高就有临床意义了,你把标准提得这么高,不是自找麻烦吗。
根据试验结果,我们可以推算出本试验的把握度只有 26%, 这么低的把握度就怪不得没做出啥来了。。。
这样吧,替研究者重新设计一下,咱假设 plcebo 组 30%wart resolution 不变,把两组差异降为 15%,这样算出来,每组做 175 例,总共 350 例。
假设同样的 wart resolution 结果,Duct Tape 组 16%,placebo 组 6%,你猜咋得?把握度大于 80%,P<0.05 了!!!咱的 Duct Tape 有救了!!!
说了这么半天,大家可能也闹胡涂了,算了,记住以下几点吧,随便锻炼一下英文,权当这次没白来看。
1. Non-positive ONLY not conclusive
2. Not be able to detect a difference does NOT mean there is no difference
3. The predominant reason of Non-positive trials is mostly 「under-powered」, rather than ineffectiveness of the test therapy