举个例子,比如你想知道全国所有中学生的平均身高,你不可能去测量每一个学生的身高,置信区间计算公式例题,因此采取了随机抽样的方式,用样本去预估去全国所有中学生的身高。
假设你随机抽取了100名学生,其平均身高为150cm,方差为25。
点估计
区间估计
这就像投掷一次骰子,如果你预测是3-6,小明预测3-4,那么你猜对的概率是67%,而小明猜对的概率是33%,你比小明猜对的可能性更大。
所以,具体如何确定估计的范围(也就是置信区间)取决于你对预估结果准确概率的要求(也就是置信水平)。如果你希望结果准确的概率更高,那么区间的范围(置信区间)就设置的越宽;如果置信水平越低,置信区间就设置的越窄。
如何设置置信区间
还是以上文中学生的身高为例,已知100个样本的平均身高为150cm,方差为25;请预估全国中学生整体的身高范围(置信区间)。
假设100个样本的平均体重为x(x=150cm),根据中心极限定理,则样本均值也服从正态分布
第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个。
由于样本平均值是呈正态分布的,我们便可以通过这条神奇的曲线推出以下结论:
(1)约有68%的样本平均值会在群体平均值一个标准误差的范围之内;(2)约有95%的样本平均值会在群体平均值的两个标准误差的范围之内;(3)约有99.7%的样本平均值会在群体平均值三个标准误差的范围之内。
在样本量相同的情况下,置信水平越高,置信区间越宽。如果样本均值落在中间1-α范围内,以样本均值为中心构造的置信区间就包含总体均值μ,这是我们希望看到的;但也有可能落在此范围以外,这种情况下构造的置信区间就不包含。
标准差的计算公式如下图所示:其中SE代表标准误差,SD代表标准差,N代表样本量。
将方差=25,n=100带入到公式中,则100名样本的平均身高服从正态分布~N(μ,0.25)。
如果α=0.05,那么置信度则是0.95或95%,后一种表示方式更为常用。置信区间的常用计算方法为Pr(c1<=μ<=c2)=1-α。其中α是显著性水平;Pr表示概率,是单词probablity的缩写;100%*(1-α)或(1-α)或指置信水平。
然后,设置置信水平,常见的有68%,95%,99.7%,此处设置95%的置信水平,则
第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。
P(μ-2 * SE < x < μ+2 * SE)=0.95,SE为标准误差,根据上文公式计算为0.5,带入公式中为 P(μ-2 * 0.5< x < μ+2 * 0.5)=0.95 ,即P( μ-1< x < μ+1)=0.95 。
求出总体均值μ的范围 x-1 < μ < x +1,带入样本量的平均体重 x =150, 则总体的平均体重范围即95%的置信区间为149 <u < 151,也就是说全国中学生的平均体重有95%的概率在149到151cm之间。