请问设计调查问卷的步骤以及确定样本大小时怎样确定置信区间?(假设检验和ABTEST(一))
这个问题太大也太模糊,硬着头皮说说,首先是设计调查问卷步骤,第一要明确你的调查目的,就是你要干嘛?第二,你的调查目的是否适合使用问卷去调查?第三,设计调查方案,...
现在,我将着重为大家解答有关什么叫拒绝域的问题,希望我的回答能够给大家带来一些启发。关于什么叫拒绝域的话题,我们开始讨论吧。
请问设计调查问卷的步骤以及确定样本大小时怎样确定置信区间?
这个问题太大也太模糊,硬着头皮说说,首先是设计调查问卷步骤,第一要明确你的调查目的,就是你要干嘛?第二,你的调查目的是否适合使用问卷去调查?第三,设计调查方案,即问卷如何发放?如何回收?第四,设计问卷结构。第五,设计具体的问题。第六,对问卷进行试做。第七,收集反馈意见并修改。最后发放和回收。
确定样本大小时怎样确定置信区间的问题需要数理统计知识,在这里我只能简单解释一下。如果你不知道你想要的置信水平,很可能你并不需要置信区间,因为其实不去管它也是可以做很漂亮的描述性统计的。总的来说置信区间是人们根据自己想要的置信水平求出来的一个区域,置信区间之外的部分在假设检验时叫做拒绝域,你可以找一个t分布表帮助你理解置信水平、样本数和置信区间的关系,网上很容易下载。
里面的n值就是样本数,α值是置信水平,对应的表里的那个数字就是置信区间的范围是均值上下几个标准差。那么你可以发现在置信水平固定的情况下,样本量越多,置信区间越窄。
如果你观察一下α=0.05那一行,你会发现n越大,α就越接近2,这也是为什么大家都喜欢用α=0.05,在样本量大的时候常常可以一眼看出来。
本人非专业人士,仅供参考,欢迎指教。
概率论与数理统计中关于临界值,临界值有什么意义?
四.临界值
1.设U~N (0,1) ,有关U 的概率可查表。如果反过来,已知概率 ,求 使 或 ,倒查表得到的 称为标准正态分布的右侧 临界值,意为右侧的概率为 ,又叫 分位点,记为
2.t 分布
当总体标准差 未知时,U 不再是统计量,这时可用样本标准差S 代替,但不再是正态分布,而是一种新的分布 ~ 叫做服从于自由度 的t 分布。它的密度曲线与正态曲线相类似 (见图8)。
3. 分布
为了将样本方差S 2和总体相比较、联系。构造出
~ ,
叫做服从于自由度为 的 分布,也是一种新的分布。其密度曲线 (见图9)在原点右侧,这是因为 统计量是不会出现负值的。
、 、 是继 、 、 后第二轮复合而成的统计量,可以更有利于实际的应用。
一.置信度与置信区间
有了点估计,还要进一步作误差估计,数理统计中的误差估计必然具有概率特征,即要用概率去描述,要与概率相联系。设 是未知参数,希望确定一个区间( a , b ) ,使它包含 的把握很大,写成概率式,即 。取 时,把握是0.95%。 往往事先取定, 称为置信度。( a , b ) 称为参数 的 置信区间, 称为置信下限, 称为置信上限。
二.正态总体的区间估计
直接求置信区间难度较大,实际求解时,往往从已知的统计量入手。比如统计量 ~ 分布已知,如果总体标准差 已知,那么关于U 的不等式变形可得到关于 的不等式,所以只需求A , B ,使 即可。满足此式的区间很多,其中“区间居中”是效果最好的,所谓“区间居中”是指区间左侧和右侧的概率相等,都等于 。因为正态分布有对称性,区间居中的概率公式是 ,于是可确定 ,将不等式 变形可得
(1)正态总体方差 已知时,均值 的置信区间
按上面的公式,置信区间是
注意: 已知时,应借助于U 统计量,要查正态分布表;置信区间有两个端点,所以要找双侧临界值(下标带有 )
例2 设总体 ~ ,测得n = 4 的样本观测值为:12.6,13.4,12.8,13.2,求 的0.95置信区间。
解 , 已知,采用U 统计量,查表得 ,计算 ,所以置信限为
,
置信区间为( 12.706 , 13.294 )。
(2)正态总体方差 未知时,均值 的置信区间
未知,以S 代替,得到t 统计量,要查t 分布表;置信区间公式类似为
例3 例2中设 ~ , 未知,求 的置信区间(取 )。
解 计算得 , 。 未知,采用t 统计量,查表得 ,所以置信限为
什么叫弃真错误
这是一个统计学概念.从理论上说,没有一个检验是百分之百正确的,必然有一定的概率犯错误。而检验的错误分为两种类型,一是弃真错误,二是取伪错误。所谓弃真错误,是指原假设为真,但检验的结果拒绝了原假设;取伪错误,是指原假设为假,但检验的结果接受了原假设。当在原假设条件下,T值出现的概率小于a时,拒绝原假设。一个小概率事件出现,因此拒绝原假设。a值越大,表明犯弃真错误的概率越大,越容易拒绝原假设,此时称检验越严格。如果减小拒绝域,就意味着扩大接受域,从而扩大了犯取伪错误的概率。弃真和取伪是一对矛盾体,只有通过改进检验方法,例如扩大样本量,或者使用更好的统计量,才可以使二者同时缩小。a值需要由检验目的来确定,当取伪造成的损失大于弃真造成的损失时,应扩大a值。
假设检验和ABTEST(一)
参考:
从假设检验到AB实验——面试前你要准备什么?
一文入门A/B测试(含流程、原理及示例)
A/B testing(一):随机分配(Random Assignment)里的Why and How
第一类错误和第二类错误的关系是什么?
假设检验的逻辑是是什么?
我们在生活中经常会遇到对一个总体数据进行评估的问题,但我们又不能直接统计全部数据,这时就需要从总体中抽出一部分样本,用样本来估计总体情况。
举一个简单的例子:
学而思网校App进行了改版迭代,现在有以下两个版本
版本1:首页为一屏课程列表 ; 版本2:首页为信息流
如果我们想区分两个版本,哪个版本用户更喜欢,转化率会更高。我们就需要对总体(全部用户)进行评估,但是 并不是全部存量用户都会访问App,并且每天还会新增很多用户,所以我们无法对总体(全部用户)进行评估,我们只能从总体的用户中随机抽取样本(访问App)的用户进行分析,用样本数据表现情况来充当总体数据表现情况,以此来评估哪个版本转化率更高。
假设检验其实就是反证法,想要证明一个命题是正确的,只能通过证明其否命题是错误的来达到目的。假设检验是用统计数据来判断命题真伪的方式。所以通常,先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立
常常会假设两个命题:
H0:备受质疑的命题
原假设,也叫零假设,用H0表示。原假设一般是统计者想要拒绝的假设。原假设的设置一般为:等于=、大于等于>=、小于等于<=。
H1:有待验证的问题
备择假设,用H1表示。备则假设是统计者想要接受的假设。备择假设的设置一般为:不等于、大于>、小于<。
两者的联系:
下图中红色阴影部分的面积为α,即第一类错误犯错的概率;黑色的阴影部分的面积为β,即第二类错误犯错的概率。
通常情况下,我们关注α,因为我们是对于H0所以应的样本进行观测和做出判断的,α就是H0与H1交集且在H1的部分(拒绝H0接受H1);而对于β,我们用的是H1对应的样本的总体(有多少样本点导致在前一步计算检验统计量时不拒绝H0)进行判断的,β就是H0与H1交集且在H0的部分(拒绝H1接受H0)。
显著性水平是指当原假设实际上正确时,检验统计量落在拒绝域的概率,简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者 根据业务情况定好的 。
显著性水平α越小,犯第I类错误的概率自然越小,一般取值:0.01、0.05、0.1等
当给定了检验的显著水平a=0.05时,进行双侧检验的Z值为1.96,t值为 。
当给定了检验的显著水平a=0.01时,进行双侧检验的Z值为2.58 。
当给定了检验的显著水平a=0.05时,进行单侧检验的Z值为1.645 。
当给定了检验的显著水平a=0.01时,进行单侧检验的Z值为2.33
检验方式分为两种:双侧检验和单侧检验。单侧检验又分为两种:左侧检验和右侧检验。
双侧检验:备择假设没有特定的方向性,形式为“≠”这种检验假设称为双侧检验
单侧检验:备择假设带有特定的方向性 形式为">""<"的假设检验,称为单侧检验 "<"称为左侧检验 ">"称为右侧检验
假设检验根据业务数据分为两种:一个总体参数的假设检验和两个总体参数的假设检验
一个总体参数 的假设检验:只有一个总体的假设检验
举个例子:学而思App原版本1转化率为 19%,学而思App版本2开发完成后,直接全量发布整体上线,过一段时间后统计转化率为27%,我们想判断版本2是否比版本1好,这时我们做的假设检验总体只有1个,全部用户。对于总体只有一个的称为一个总体参数的假设检验。
两个总体参数 的假设检验:有两个总体的假设检验
同样的例子:学而思App版本1和学而思App版本2同时上线,流量各50%,这时我们做的假设检验总体有2个,分别为命中版本1的全部用户与命中版本2的全部用户。
两种假设检验的检验统计量计算方式有所不同,所以做区分描述。
在判断用什么检验的时候,首要考虑的条件是 样本量 ,其次是 总体服从的分布 。
简单地说其实就是, 总体标准差 怎么估计的问题。检验类型确定了,检验统计量也就确定了。
(不过现在的很多软件简化了上述步骤,改为, 若总体标准差已知(无论样本大小)都用Z检验 ; 若总体标准差未知,都用T检验 。 不过当样本量够大的时候,T分布也近似于Z分布了 ,所以最后的结果不会差很多。 T分布其实是小样本的Z分布。一个样本的自由度越大,样本方差就越接近总体方差,T分布也就越接近Z分布。因此T分布的形状随自由度的变化而变化,自由度越大,越接近正态分布。 )
利用假设检验来证明:
第一步: 提出原假设和被择假设:H0:中医是无效的。 H1:中医是有效的。 H0是我们希望推翻的命题,H1是希望被证实的命题。
第二步:从整体的研究样本中抽样,这里应选择两个总体:两组生理特征和疾病状况一致的人,一组人不给予治疗,另一组给予中医治疗,持续观测两组人的生理数据。
第三步:根据两组人的生理数据构造T统计量(双样本σ未知)进行T检验。
第四步:根据显著性水平确定拒绝域或者P值。
第五步:构造拒绝域,考察0与拒绝域的关系;或者计算p值,比较其与显著性水平的关系。
组间差异检验,终于有人讲清楚了!
什么是组间差异检验?就是组间的差异分析以及显著性检验,应用统计学上的 假设检验 方法,检验组间是否有差异及其差异程度。坦率地讲,所有的差异检验都基于一个假设:组间没有差异,变量之间没有关系(即原假设, )。上海交大王成老师也说方差分析其实研究的就是不同水平下是否有差异化的假设检验问题。而假设检验就是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。
所以,本着负责的态度,在本文的开始我们有必要回顾一下《概率论与数理统计》中关于假设检验的基本概念。
其中 参数 这个概念最值得我们好好体会,因为今天的主角 组间差异检验 ,在这个水平上可以分为两类:参数检验和非参数检验。那么什么叫参数检验和非参数检验,它们之间的区别是什么呢。要理解前面的问题,首先需要明白统计推断的概念。
统计推断是研究如何利用样本数据来推断总体特征的统计学方法,包括参数估计和假设检验两大类。总体的参数一般是未知的,通常可以用样本统计量来对总体的参数进行估计,例如可以用样本均值对总体均值进行点估计,利用样本均值的分布对总体均值进行区间估计,这些都称为参数估计。
参数检验和非参数检验的区别:
那么什么时候用参数检验,什么时候用非参数检验呢?非参数检验一般不直接用样本观察值作分析,统计量的计算基于原始数据在整个样本中的秩次,丢弃了观察值的具体数值,因此凡适合参数检验的资料,应首选参数检验。但是不清楚是否合适参数检验的资料,则应采用非参数检验。
此处也许大家期待作者带我们温习一下假设检验的4 个步骤(提出假设;构造检验统计量;根据显著水平,确定临界值和拒绝域;做出检验决策),但是带有几分傲气的作者绝情地不为我们没有学好的课程补刀,补课的事情让我们自己去做,他转而讲自己认为重要的知识点:抽样分布。
知道我们的研究对象整体处于什么状态,是一件非常重要的事情。三大抽样分布( -分布、 分布、 -分布)和正态分布共同构成了现代数理统计学的基础,其中,正态分布和 -分布是关于均值的分布; 分布、 -分布是关于方差的分布。很多同学做统计做了很多年,却不知道为什么几乎每个方差分析都有 值。可见,统计学拼到最后拼的都是 基础 。
离开分布,假设检验无从谈起;离开假设检验,差异分析毫无根基。同样地,出于人道主义,我们来重温一下抽样分布。
设 X 1 ,X 2 ,......X n 相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ 2 =X 1 2 +X 2 2 +......+X n 2 所服从的分布为自由度为 n 的 分布
设 服从标准正态分布N(0,1), 服从自由度为n的 分布,且 、 相互独立,则称变量 所服从的分布为自由度为n的 -分布
设 服从自由度为 的 分布, 服从自由度为 的 分布,且 、 相互独立,则称变量 所服从的分布为 分布,其中第一自由度为 ,第二自由度为 。一般滴,这里F就是均方之比。
不管是参数检验还是非参数检验,都要基于特定的分布来做假设检验。当总体分布已知时,例如总体服从正态分布,我们可以根据给定的显著性水平(通常为0.01 或0.05)查表获得临界值。当总体分布未知时,可以先用Permutation test 构造经验分布,再根据显著性水平获得临界值。
传统的统计量检验的方法是在检验之前确定显著性水平 ,也就意味着事先确定了临界值和拒绝域。这样,不论检验统计量的值是大还是小,只要它的值落入拒绝域就拒绝原假设,否则就不拒绝原假设。这种给定显著性水平的方法,无法给出观测数据与原假设之间不一致程度的精确度量。要测量出样本观测数据与原假设中假设值的偏离程度,则需要计算pvalue值。pvalue 值,也称为观测到的显著性水平,它表示为如果原假设 正确时得到实际观测样本结果的概率。pvalue 值越小,说明实际观测到的数据与 之间的不一致的程度就越大,检验的结果就越显著。
变量较多,判断组间差异时需要多重检验的情况在宏基因组扩增子差异分析中十分常见。这种情况下,基于单次比较的检验标准将变得过于宽松,使得阳性结果中的错误率(FDR 值FalseDiscovery Rate)非常大(已经大到令人不可忍受的地步)。怎么办呢?最好的办法就提高判断的标准(p value),单次判断的犯错概率就会下降,总体犯错的概率也将下降。在多重检验中提高判断标准的方法,我们就称之为 多重检验校正 。从1979 年以来,统计学家提出了多种多重检验校正的方法。相应地,对p值校正之后的叫法也不一样,比如,FDR、Q value、Adjusted p-value,这个大家知道在多重检验时需要校正就行了,具体的用法作者有时间再教大家(这个作者真是皮啊~~)。
关于宏基因组或扩增子组间差异检验的理论知识就到这了,作者认为知道以上知识点是必要的,也告诉我们,今天我们讨论的是统计推断。换句话说,找差异,我们是专业的。
人民为了找差异,这才学会做统计。为了说明组间的数据差异很大,人民开发了许多沿用至今的图画,下面我们就一起来揭开这一幅幅有差异的画面。
在数据科学家的工具箱里,这是一款经久不衰、常用常新的瑞士军刀。几乎只要想到差异分析,就会想到箱线图。也开发出类箱线图的工具比如小提琴图(小提琴图Violin plot)
一般有进化树和层次聚类树,如果你想表达对象之间的距离差异,最直观的的也许就是树状图了。为了用图表示亲缘关系,把分类单位摆在图上树枝顶部,根据分枝可以表示其相互关系,具有二次元和三次元。在数量分类学上用于表型分类的树状图,称为表型树状图(phenogram),掺入系统的推论的称为系统树状图(cladogram)以资区别。
贴心的作者小朋友把实现这些图形的常见R包列给大家,安装后就能用啦
这里说的基于物种言下之意是通过统计分析,可以有针对性的找出分组间丰度变化差异显著的物种,并得到差异物种在不同分组间的富集情况,同时,可以比较组内差异和组间差异的大小,判断不同分组间的群落结构差异是否具有显著意义。也就是说可以找出区别组间的一个biomarker。
这类检验一般只输出p值,它的目的很简单,就是检验比较组之间的相似性距离是否有差异。常用的分析方法有卡方检验、Student t检验、Wilcoxon秩和检验等等。
如果只有两个样本比较,适合用卡方检验 ,不过说实在的,检验出来的结果没什么可靠性,因为现阶段16s研究不做重复实在“难以服众”了。先不说价格便宜,做重复压根没有难度,就是从生物学、统计学角度考虑,也需要做重复。
如果是两组样本(至少3重复),可以试一下Student t,Welch‘st以及Wilcoxon秩和检验 。Student t检验需要样本符合正态分布,而且方差对齐。当组间样本数不同,方差也不对齐的时候,Welch’s t检验是很好的选择。
Wilcoxon秩和检验又叫Mann-Whitney U 检验,是基于变量排名的一种统计方法,不需要样本符合正态分布,也不需要样本方差对齐,是更为广泛的检验方法,但同时也由于检验太宽松,容易带来很多假阳性。
如果是多组样本比较,可以选择one way ANOVA、TURKEY以及Kruskal-Wallis H检验等方法 。one way ANOVA和TURKEY其实都是基于方差分析,只不过后者带有后验,可以知道两个分组对整体差异的贡献度。
Kruskal-Wallis H检验本质也是一种秩和检验,与前两者的区别在于,它不需要样本数和方差的对齐,应用更为广泛。Kruskal-Wallis检验又被称之为单因素非参数方差分析。
毫不客气地讲,一般秩和检验或置换检验属于非参数检验。在这类差异检验中,有两种集成方法特别值得我们注意:LEfSe 、metastats。
得到结果展示如下,差异体现在柱形图和树状图上。LDA值分布柱状图中展示了LDA Score大于设定值(默认设置为4)的物种,即组间具有统计学差异的Biomarker。展示了不同组中丰度差异显著的物种,柱状图的长度代表差异物种的影响大小(即为 LDA Score)。
在进化分支图中,由内至外辐射的圆圈代表了由门至属(或种)的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈直径大小与相对丰度大小呈正比。着色原则:无显著差异的物种统一着色为**,差异物种Biomarker跟随组进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,绿色节点表示在绿色组别中起到重要作用的微生物类群,若图中某一组缺失,则表明此组中并无差异显著的物种,故此组缺失。图中英文字母表示的物种名称在右侧图例中进行展示。
metastats结果给出差异物种的p值和q值(表中 的数据是假的!)
所谓基于距离也就是检验的是群落差异而不是某个物种。上面所提及的检验方法,其实都只能告诉大家,这些分组是否有显著差异(可以简单理解为有无)。那如果想同时知道这些差异的程度(可以简单理解为多少)呢,那需要Anosim,Adonis以及MRPP等检验方法。这些方法不但可以输出检验显著性结果(p值),还有程度结果(R值),R值可以用来判断分组贡献度大小。Anosim、Adonis这些可用于多元统计检验的模型就非常适合了。要值得注意的是,Anosim本质是基于排名的算法,其实与NMDS的配合效果最好。如果是PCoA分析,建议配合使用Adonis检验结果。
Anosim(Analysis of similarities)是一种非参数检验方法。它首先通过变量计算样本间关系(或者说相似性),然后计算关系排名,最后通过排名进行置换检验判断组间差异是否显著不同于组内差异。这个检验有两个重要的数值,一个是p值,可以判断这种组间与组内的比较是否显著;一个是R值,可以得出组间与组内比较的差异程度。Anosim用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义,Anosim分析使用R vegan包anosim函数,一般基于Bray-Curtis距离值的秩次进行组间差异显著行检验,详细计算过程可查看 Anosim 。
该方法主要有两个数值结果:一个是R,用于不同组间否存在差异;一个是P,用于说明是否存在显著差异。以下分别对两个数值进行说明:
R值的计算公式如下:
rB:组间差异性秩的平均值(mean rank of between group dissimilarities)
rW:组内差异性秩的平均值(mean rank of within group dissimilarities)
n:总样本个数(the number of samples)
R的范围为[-1,1]
R>0说明组间差异大于组内差异,R<0组间差异小于组内差异。
R只是组间是否有差异的数值表示,并不提供显著性说明。
P值则说明不同组间差异是否显著,该P值通过置换检验(Permutation Test)获得。
置换检验大致原理:(假设原始分组为实验组和对照组)
1、对所有样本进行随机分组,即实验组和对照组。
2、计算当前分组时的R值,即为Ri。
3、重复当前操作N次,对所有Ri及原始R从大到小排序,R所处的位置除以N即为置换检验P值。
ADONIS又称置换多因素方差分析(permutational MANOVA)或非参数多因素方差分析(nonparametric MANOVA),是一种基于Bray-Curtis距离的非参数多元方差分析方法。它与Anosim的用途其实差不多,也能够给出不同分组因素对样品差异的解释度(R值)与分组显著性(P值)。不同点是应用的检验模型不同,ADONIS本质是基于F统计量的方差分析,所以很多细节与上述方差分析类似。该方法可分析不同分组因素对样本差异的解释度,并使用置换检验对分组的统计学意义进行显著性分析。ADONIS分析使用R vegan包adonis函数进行分析,详细计算过程可 adonis
MRPP分析与Anosim类似,但是MRPP是基于Bray-Curtis的参数检验,用于分析组间微生物群落结构的差异是否显著,通常配合PCA、PCoA、NMDS等降维图使用,MRPP分析使用R vegan包mrpp函数,详细计算过程可查看 MRPP
分子方差分析法 (AMOVA)与ANOVA类似,是基于加权或非加权Unifrac距离矩阵,检验不同组间差异显著性的非参数分析方法。一般基于Unifrac距离,使用mothur软件amova函数进行组间差异分析,详细计算过程可查看 Amova
Mantel test,Mantel test 是对两个矩阵相关关系的检验,顾名思义,是一种检验。既然是检验就得有原假设,它的原假设是两个矩阵见没有相关关系。检验过程如下:两个矩阵都对应展开,变量两列,计算相关系数(理论上什么相关系数都可以计算,但常用pearson相关系数),然后其中一列或两列同时置换,再计算一个值,permutation 成千上万次,看实际的r值在所得r值分布中的位置,如果跟随机置换得到的结果站队较近,则不大相关,如果远远比随机由此得到显著性。详细计算过程可查看 Mantel test
作者实在太懒,坚持别人已经说过的话不愿再说,只要抄过来就好了,在文章的最后他把赵小胖的一段话原版搬了过来:
无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头。后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙,品种之繁多,逻辑之严谨所折服。在此,特写下这篇博文,以供那些仍然挣扎在显著性检验泥潭的非统计专业的科研界同僚们参考。由于笔者本人也并非统计专业毕业,所持观点粗陋浅鄙,贻笑大方之处还望诸位业界前辈,领域翘楚不吝赐教。小可在此谢过诸位看官了。
参考:
[图解DS基础概念]Critical value,Alpha,Z-score,P-value 关系
参考
critical value 临界值
+-1.96 叫 critical value 临界值,是拒绝域的边界:
例如某个实验中计算出 z score = 2.6 , 那就用 2.6 与 +-1.96 去比较,看它是否在拒绝域。
如果在,我们就要拒绝假设。
alpha 是拒绝域边界外尾巴处的面积
置信度为 0.95,即有 95% 的可能性总体平均值会落在两个临界值之间。
此时 alpha = 0.05。
P-value 是用来显示试验结果的 z score 的显著性如何:
p-value 的大小就是 大于 2.6 的面积:
另外此处也可以写成 p < 0.025:
这个过程,可以用小概率事件来理解,在原假设下,如果它是正确的,就认为不会发生小概率事件。那么如果实际上,小概率事件发生了,就只好认为是原假设不对了。
小结一下,就是我们设计的实验,可以接受的误差概率为 alpha,根据这个值可以算出两个边界值,实际试验样本计算出的 z score 如果在两个边界的外面,那么它对应的 p-value 就小于 alpha,可以看成是小概率事件发生了,此时就可以认为原假设不对。
更细致的解释可以 看这里 。
历史技术博文链接汇总
我是 不会停的蜗牛 Alice
85后全职主妇
喜欢人工智能,行动派
创造力,思考力,学习力提升修炼进行中
欢迎您的喜欢,关注和评论!
功效函数
对于假设检验,是通过样本观察总体,并以此来支撑或否定我们对总体某一特征的假设。我们的样本数据可能是不完善的,因此依据数据推断总体可能会面临两种风险。
如果我们的 是我们的阳性结果(一般来说,我们都希望拒绝 得到所谓的显著性差异),假设的结果和事实之间,可能是如下这种关系:
其中假阳性就是所谓的第一类错误,假阴性就是第二类错误的风险。在数学的概念中,分别叫做 “弃真”、“取伪”。
此外,还有一些定义需要知道:
对于我们的假设,可能并不是合适的。比如, ,这个 可能只是我们自己拍脑袋决定的。因此 对于这个 ,不同的取值之间,我们的样本落在拒绝域的概率是不一样的 。
这时候就需要一个关于 函数,对于其不同的取值,计算这个概率,以评价在当前样本下,我们的最优的假设应该是什么取值。这个函数就是功效函数。为:
是在显著性水平 下的拒绝域。
功效的定义与功效函数有点区别,更接近拒绝域原来的意义。是指在 为假的情况下,样本落在拒绝域的概率,也就是备择假设的功效。
这两类错误都是我们不希望见到的。乍一看,这句话很对啊,毕竟二者发生的概率相加得1。
(这个图来源于百度百科_功效函数)
但是细一想,这两种错误是来源于不同情况下的条件概率,应该是关系不大的。为啥二者扯上关系啦?
我的理解 是,我们最难的就是知道总体的绝对真实情况,我们有的只有有限的样本。我们只能根据这些有限的样本、显著性水平 和我们假设的 计算功效函数,但是并不知道总体的真实情况。因此,站在不精确世界的角度上,我们有的只是这两个条件概率,这两个风险,这两个犯错误的概率。我们扩大样本、改变显著性水平等,对他们是同时改变的,因此是不能一起降低的。
功效分析(Power Analysis)可以帮助我们设计实验。该分析涉及到以下四个量,知道三个就可以推算第四个。
具体的功效分析,可以用于比例检验、t检验、卡方检验、ANOVA、相关性分析、线性模型分析等。
待续。。。
1.高等工程数学,吴孟达,李兵等编著,科学出版社,P150
2.R语言实战(第二版),Robert I. Kabacoff,中国工信出版集团&人民邮电出版社,第10章 功效分析
3. 百度百科_功效函数
好了,关于“什么叫拒绝域”的话题就讲到这里了。希望大家能够通过我的讲解对“什么叫拒绝域”有更全面、深入的了解,并且能够在今后的工作中更好地运用所学知识。