道士无情僧有情
兜兜绕绕,回到最初学习统计的地方。向大家以及各位老师请教:
150人的一个数据,一个明显呈偏态分布的数据,是2个数据得出的比值。3/4的数据小于1,1/4的数据大于1,最小值0.01,最大值40。突然想到是不是可以试试用取对数的方法变成正态的分布的数据。
然后问题来了
1:取对数,是取以多少为底的对数呢?我尝试了下log2,结果还是偏的,log10的话,看起来就挺正态的。后来自己想想,是不是底为多少其实不是很重要,只要是取对数了就可以。数据的具体分布不同,要想变成正态的(如果可能变成正态的话),对数函数的底是可以不同的。不知道这个理解对不对?
2:因为“3/4的数据小于1,1/4的数据大于1”,所以取对数以后,3/4的数据为负数,1/4的数据为正数。因为这个数据其实是个比值,没有具体意义。那是不是就这样,不需要其他处理了吧。我也尝试了原始数值加1以后取对数,还是偏的。想想也是,这个办法不适合我这组“3/4的数据小于1,1/4的数据大于1”的数据。加了1,对原始数据的改变太大了,为了避免负值,而大幅度的改变了原始数据,这么做应该是错的。
3:茎叶图也好,QQ图也好,看起来确实挺像是正态分布的数据了,但是呢,Shapiro-Wilk检验一做,发现p值还是小于0.05,得,还是非正态数据。但是我看到一篇文章(有且仅有一篇文章)提到,Shapiro-Wilk test, with a W-value ≥0.80 accepted as approximately normal。他认为 Shapiro-Wilk检验的W值只要≥0.80,就认为近似正态。这个说法有没有具体道理和出处呢?(那篇文章没有给具体引用)院子里有个帖子提到:图形(包括直方图、茎叶图、p-p 图、Q-Q 图等)是验证是否正态分布的金标准。那么Shapiro-Wilk 检验是不是其实没那么重要呢?茎叶图QQ图看起来近似正态了,其实就差不多了?
4:按照性别分为2组,比较两组间这个指标是否有差异。严格的步骤我自己的理解是:1)每组的数据进行Shapiro-Wilk tes,看是否正态;2)然后,两组数据进行比较,先做方差齐性检验,看方差是否齐,如果正态方差齐,那么就可以t检验,或单因素方差分析。方差不齐,就看Welch test,如果非正态,那么就非参数检验。那是不是意味着刚刚对这150人的数据进行正态性检验,其实没啥用?总归还是得先分2组,然后2组分别进行数据的正态性检验?这个理解对吗?
5:实际上,我看到有种说法,说单因素方差分析对于数据是否正态是有一定耐受的,近似正态就可以了,主要看方差齐不齐。齐就用t检验,不齐就非参数。是这样一回事吗?那么又回到问题2,近似正态如何判断呢?只是大致看看茎叶图,QQ图的统计描述就可以吗?
6:一看到这150个数据是偏态的,啥也不想,分组以后,直接上非参数检验,是不是更简单明了?可看到有种说法大概意思是:如果2组之间真的没差异,那么非参数检验和参数检验差不多;但如果2组之间有差异,那么参数检验比非参数检验效力高。这是不是大家为了把数据正态化而做取对数也好,平方根也好,做这些工作的原因呢?总归能变正态用参数检验最好,迫不得已采用非参数,是不是这个道理呢?
问题比较基础,比较多,请各位同学和老师指教,谢谢。
土井挞克树
取对数一般是以自然对数为底,不要用2做,成功率低
loveliufudan
1.一般来说,取对数的底可以选择e或10,这两个底数较为常用。实际上,对数的底数并不是非常重要,因为对数转换后的数据变量是等价的,底数的选择不会影响变量之间的顺序关系和比例关系。如果取对数的底数不同,得到的图形可能会有所不同,但是基本趋势和结论应该是相似的。
2.对于大多数情况下,直接取对数是可行的。由于您的数据是比值数据,当取对数后,正值和负值对于相同的底数都具有相同的绝对值。由于数据不是有具体意义的,您不需要做其他处理。
3.Shapiro-Wilk检验是一种检验数据是否服从正态分布的方法,W值越接近1,说明数据越接近正态分布。通常,如果W值小于0.05,我们会拒绝原假设,即数据不是正态分布。在某些情况下,如样本大小较小,Shapiro-Wilk检验可能会产生假阳性结果。在这种情况下,您可以尝试使用其他方法来检查正态性,如QQ图或茎叶图。然而,如果您的数据集非常大,甚至微小的偏差也可能导致显著的Shapiro-Wilk检验结果。因此,仅仅根据W值是否大于0.80来确定正态分布并不可靠。
4.对于比较两个组的指标是否有差异,您的理解是正确的。首先,我们需要检查每个组的数据是否服从正态分布。如果两个组的方差相等且服从正态分布,我们可以使用t检验或方差分析。如果方差不齐,则应该使用Welch's t-test或非参数检验。如果数据不服从正态分布,则应使用非参数检验。在进行统计检验之前,应首先确定您的数据是否符合检验的假设条件。
5.对于方差齐或不齐的问题,当数据服从正态分布时,使用方差分析(ANOVA)是一个常见的方法。当数据不服从正态分布时,我们可以使用非参数方差分析,如Kruskal-Wallis检验。在某些情况下,单因素方差分析对数据是否正态分布也是有耐受性的,但是我们还是需要检查数据是否满足假设条件。
6.非参数检验与参数检验都有其优缺点。对于偏态数据,非参数检验通常比参数检验更适用,因为非参数检验不依赖于数据的分布假设,而参数检验通常需要假设数据服从特定的分布。另外,非参数检验对于数据缺失或异常值的处理也更为灵活。相比之下,参数检验对于数据的模型假设要求更严格,如果模型假设不符合实际情况,其结果可能会出现较大偏差。然而,参数检验的优点在于其统计效率通常比非参数检验更高,因为它可以利用数据分布的特点来提高分析的精度。
道士无情僧有情
感谢老师点对点的详尽回复。追问3个问题。在问题3您提到Shapiro-Wilk检验,如果N很大,那么微小的偏差也会导致P<0.05,从而拒绝正态性;如果样本较小,可能会产生假阳性,假阳性意思是不是说虽然拒绝的正态性,但是其实是错的?这些正态性的检验统计方法是不是很严格的正态性检验呢?因为QQ图也好茎叶图也好,都只是用眼睛大概看一看,主观性很大,我们是不是一般就用QQ图大致看一下,近似正态就可以了?近似这个词,真的很微妙。您的回复中,并没有出现过“近似正态”这种字眼。换句话说:可不可以这么理解:Shapiro-Wilk检验拒绝了正态性(但不表示也拒绝近似正态),可能是由于N很大,但是有点偏;也可能是N比较小,某些情况下的假阳性;当然也可能是真实的事实。但是QQ图一看,还是近似正态的,那么还是可以勉强认为正态,而进行下一步?好像在哪里看过说统计分析,其实也只是一种模糊的估计,而并不强调绝对准确值,大概这个意思,我的描述并不准确。在问题4中,我具体描述下,比如我这150个数据,log转换后,分布有点正态分布的意思了,是不是这件事其实是非常不重要的,属于无用功呢?因为我不在乎这150个数据整体是否正态,我下一步目的是要比较这个值在不同性别中是否有差异,在不同年龄段中是否有差异,在不同肿瘤分期中是否有差异,和这些因素是否有关联。会进行很多次的分组。每次比较的时候,都需要看分好的各个组是不是分别都满足正态性。我认为这种完美数据是不存在的吧?好不容易性别的2组都满足正态了,用t检验;肿瘤分期分组肯定不是每组都正态呀,那就非参数了。不可能有一个数据在好多次分组的时候,每组都满足正态吧,那么是不是说这种临床分析文章,只有一种可能就是非参数检验,用参数大概率(不能说100%)就是错的,我不相信一个数据这么多次分组,每个组都满足正态性。在问题5中:我的流程是近似正态的情况下,方差齐就ANOVA,不齐就welch ANOVA(这也是参数检验的一种吧);您给出的意见是正态就方差分析,非正态就Kruskal-Wallis。我能理解您的回复。正态和非正态的二分法是一定正确的,但是其实我想问的是刚刚的模糊的概念:“近似正态”。其实还是对“近似正态”这个判定不是很确认,难道真的是QQ图茎叶图稍微看看,主观判断一下就行了?
相关产品推荐
相关问答