滥用P值,美国统计协会也来吐槽

后来,随着试验越做越多,一个问题一直在我心里。怎么这P值像老板家养的一样,想怎么捏就怎么捏。在毕业前我问了他这个问题,他微微一笑说,你还是太年轻啊,p = 0.05这个设定本身就是有问题的,而且P值本身也没这么神,今天就给你上上最后一课。

P值的历史

P值得历史可以追溯到1770年,数学家拉普拉斯在处理50万左右的生育数据时,发现男性的生育率超过女性,对于这个无法解释的“超越”,他计算了一个叫做“P值”的东西,以确定这个“超越”是真实的。

很多统计学家误以为关于P值的正式文献是Fisher发表的,其实不然,最早在文献中正式阐述P值及其计算的,是统计学家Karl Pearson,你可能不了解他,但是他的Pearson卡方检验你一定知道,这篇关于卡方检验的文章当时被发表在《哲学杂志》上,文章中一同被介绍的,还有一个被叫做“P值”的东东。

最后就是Fisher,P值能风靡学术界这么多年,他是第一推手,被他推动的除了P值,还有被称为“费雪学派”(Fisherian)的假设检验思想。

他的想法是:在一个样本均值为m0的正态总体中,抽样得到这个均值为的样本的几率会有多大?要是能计算出这个概率,就知道“这个样本来自该总体”这件事有多靠谱了,如果概率太小,就认为是不靠谱的事情,那么就可以认定这个假设是错的。这就是假设检验里的“小概率事件原理”,这个概率就是后来风靡学术界的“P值”,一般认为概率小于5%,就是不靠谱的事情,则需要拒绝原假设。然而,这里面从来没提过“备择假设”,也从没说任何关于“接受”某个假设的事情。

所以,在Fisher的思想里,P值检验从来没有涉及到“备择假设”的概念,没有被认为可以用来证明某个假设是对的。

P值神话

之后的科学家们就想利用P值来保证循证决策的严谨与客观。他们将P值与N-P检验思想中的“备择假设”与第一类错误和第二类错误结合在一起,创造出了一种混合的方法,然后就出现了像“P值为0.05,即可将统计结果视为显著”这样的规则。

现在P值已经掌握了科研界的话语权,任何说明研究有显著意义的结果都要用P值来说明。这也就不可避免的带来了P值在不适合情形下的滥用。好比99%的把握与100%把握虽然只差了1%,但是性质的本质肯定是有差别的。而之所以P值能按照研究者的意愿可大可小是因为P值从来没有被证明可以用来接受某个假设,即使是拒绝假设,也是基于某个样本得出的结论,当样本变动时,结论很可能也会变动。所以离开样本量谈P值就是耍流氓。

解决之道:P值六准则

对P值的吐槽历来有之,而近日美国统计协会(ASA)正式发布了一条关于P值的声(吐)明(槽),这是第一次被一个大型专业协会以非常正式的形式进行发布,下图是一幅讽刺滥用P值的漫画。

ASA发表声明警告称,滥用P值(P value,用来判定假设检验结果的一个参数)使得大量研究发现无法再现。ASA计划推出相应原则来指导P值的使用,并表示P值无法判断一个假说是否正确或实验结果是否重要。

为了解决P值滥用的问题,最近美国统计协会(ASA)正式发布了一条关于P值的声明,明确提出了P值运用的准则。

准则1:P值可以表示数据与一个特定的统计模型是否相容。

这条准则的意思是说,我们通常会设立一个假设的模型,称为“原假设”,然后在这个模型下观察数据在多大程度上与原假设背道而驰。P值越小,说明数据与模型之间越不匹配。

准则2:P值并不能衡量某条假设为真的概率,或是数据仅由随机因素产生的概率。

P值是所得数据与解释之间关系的说明,而不是对解释本身的说明。

准则3:科研结论、商业决定和政策制定不能完全凭P是否小于一个特定的值来决定。

成功的决策取决于很多方面,包括实验的设计,测量的质量,外部的信息和证据,假设的合理性等等。仅仅看P值是否小于0.05是非常具有误导性的。

准则4:合理的推断过程需要完整的报告和透明度。

正确的科学推理,需要研究者公布研究中包含的所有假设,所有数据收集的决定,所有进行的统计分析和所有P值。

准则5:一个P值,或者显著性,不能表示一个效应的大小,或者一个结果的重要性

明确统计的显著性并不代表科学上的重要性。一个经常会看到的现象是,无论某个效应的影响有多小,当样本量足够大或测量精度足够高时,P值通常都会很小。反之,一些重大的影响如果样本量不够多或测量精度不够高,其P值也可能很大。

准则6:P值就其本身而言,并不是一个非常好的对模型或假设所含证据大小的衡量。

单独的P值只能提供有限信息。用一个略小于0.05的P值来拒绝零假设就难以有说服力;相反,一个相对较大的P值也不能说就赞成零假设。当有其他方法可选时,数据分析不应该以一个简单的P值计算作为结束。

看来ASA对于P值的过度神话也是看不下去了,这六条声明也可以看做是ASA对于P值的官方态度。并且声明之后还列举出了一些其他的能对P值进行补充的分析方手段,比如置信区间,贝叶斯方法,似然比,FDA(False Discovery Rate)等等。这些方法都依赖于一些其他的假定,但在一些特定的问题中会比P值更为直接地回答诸如“哪个假定更为正确”这样的问题。对同一个数据使用多种方法进行分析。结果越是不同,就越有可能出现重大的发现,因为在科学的世界里,不存在哪个单一的指标能替代科学的思维方式。

来源:解螺旋

2016-06-02