| 
 
金桔 
金币 
威望 
贡献 
回帖0
精华
在线时间 小时
 | 
| 统计推断有两大法宝:一是参数估计,二是假设检验。 
 
 
  参数估计的本质是用样本统计量来估计总体的参数。统计量是样本场景名词, 具有样本的含义, 同样参数是总体场景名词, 具有总体的含义。比如: 样本的方差是一个统计量,总体 的方差是一个参数。
 
 假设检验是根据样本统计量来检验对总体参数的先验假设是否成立。先验假设有很明确的主观目的,去对假设做证伪,常见的量化指标是P值。
 
 参数估计中包含:
 点估计:用样本统计统计量直接作为总体参数的估计值,简洁却存在以偏概全的局限性,包含我们常见的矩估计,极大似然估计。
 区间估计:在预先给定的置信度(1-置信水平),比如90%、 95%、 99%.计算出总体参数的置信区间。
 在总体标准差未知,我们常常可以选择t分布。当总体标准差已知或样本量(n大于50)很大时,我们可以选择正态分布。
 
 假设检验:
 1,提出检验假设(原假设及备择假设)。
 2,确定检验的置信水平。
 3,确定统计量与验证方法(Z检验,T检验,卡方检验等)。
 4,计算出P值。
 3,推断结论:基于P值与置信水平的大小判断结果。
 
 案例实战:
 
 
  这里使用R工具:
 数值变量,我们可以绘制条形图,箱线图及分组后的直方图:
 data<-c(44.2,36.4,51.7,32.9,46.4,40.3,49.4,32.1,29.0,41.0)
 > par(mfrow=c(1,3), mai=c(0.7,0.7,0.6,0.1),cex=0.7,cex.main=0.8)
 > barplot(data)
 > boxplot(data)
 > hist(data)
 
 > data<-c(44.2,36.4,51.7,32.9,46.4,40.3,49.4,32.1,29.0,41.0,46.2)
 > summary(data)
 Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
 29.00   34.65   41.00   40.87   46.30   51.70
 
  从summary数据总览可以看出:中位数 41.00 ,平均数 40.87,没有数值相同的众数。
 参数估计:样本量为10,属于小样本量,总体标准差未知,这里可以使用t分布来估计总体均值。在给定的置信水平a=0.05,t=2.262。
 
 
  用公式计算 置信区间:
 
  在置信水平为0.05条件下,破案率的置信区间为:[32.66,48.02]。由于破案率:46.2在置信区间中,所以与其他州的破案率没有明显区别。
 
 假设检验:
 1,提出检验假设(原假设及备择假设):
 H0 克雷默市破案率 与 其他10个城市平均破案率 无明显区别;H1 克雷默市破案率 与 其他10个城市平均破案率 有明显区别。
 2,确定检验的置信水平:a=0.05,参考t值=2.262
 3,确定统计量与验证方法:统计量为:t
 
  4,计算出P值:P<0.05 (由计算的t值大于参考t值,可以的P值小于0.05)
 3,推断结论:有P<0.05,这里拒绝原假设,选择备择假设 (如果样本纳入克雷默市破案率会得出相反的结论)。
 
 这里我们推荐使用R来计算置信区间及P值:
 library(BSDA)
 #正态分布的置信区间求法
 interval_div <- z.test(battery, sigma.x = sigma, conf.level = 0.95)$conf.int
 cat(sprintf(&#39;置信区间是: [%s, %s]&#39;, round(interval_div[1], 4),round(interval_div[2], 4),))
 p_value <- pnorm(x, mean = a, sd = s/sqrt(n))
 #t分布的置信区间求法
 interval_div<-t.test(battery, mu = 20, alternative = &#34;less&#34;, conf.level = 0.95)$conf.int
 cat(sprintf(&#39;置信区间是: [%s, %s]&#39;, round(interval_div[1], 4),round(interval_div[2], 4),))
 p_value <- pt(x,df,ncp)
 
  参数估计与假设检验之间的相同点、联系与区别:
 相同点:都是根据样本信息对总体的数量特征进行推断;以样本分布为理论依据,建立在概率论基础之上的统计推断,推断结果都有一定的可信程度或风险。
 联系:二者可相互转换,形成对偶性。对同一问题的参数进行推断,由于二者使用同一样本、同一统计量、同一分布,因而二者可以相互转换。区间估计问题可以转换成假设问题,假设问题也可以转换成区间估计问题。区间估计中的置信区间对应于假设检验中的接受区域,置信区间以外的区域就是假设检验中的拒绝域。
 主要区别:参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;参数估计中的区间估计是求以样本统计量为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;参数估计中的区间估计是以大概率为标准,通常以较大的把握程度(置信水平)1-α去保证总体参数的置信区间。而假设检验是以小概率原理为标准,通常是给定很小的显著性水平α去检验对总体参数的先验假设是否成立或对总体的分布的形式的假设进行判断。
 参考:
 第5章:参数估计与假设检验 | 统计分析(以R语言为工具):辅助材料
 科学网-在R中如何求给定分布和统计量的p-value - 彭友松的博文
 参数估计、假设检验及它们之间的关系(相同点、联系与区别)_ccccplus的博客-CSDN博客_参数估计与假设检验的区别和联系
 | 
 |