数据分析常用的知识点—区间估计
点估计是用于估计总体参数的样本统计量,但是我们不可能通过点估计就给出总体参数的一个精确值,更稳妥的方法是加减一个边际误差,通过一个区间值来估计(区间估计)
总体均值的区间的估计
总体均值的区间的估计:σ已知情形
对总体均值进行估计时:
1. 要利用总体标准差σ计算边际误差
2. 抽样前可通过大量历史数据估计总体标准差。
下面做一道例题感受下吧
这是一道有关顾客购物消费额的问题,根据历史数据,σ=20美元,并且总体服正态分布。现在抽取n=100名顾客的简单随机样本,其样本均值(x拔)=82美元。求总体均值的区间估计
开始解答:
1. 总体服从正态分布,所以样本均值的抽样分布也是正态分布。
2. 根据σ=20美元,得出
3. 所以x拔的抽样分布服从标准差为σ(x拔)=2的正态分布
4. 任何正态分布的随机变量都有95%的值在均值附近加减1.96个标准差以内(通过查表可得)
5. σ(x拔)=2,(x拔)所有值的95%都落在【u加减1.96σ(x拔)也即是u加减3.92】
也即是:
(x拔)=82美元
所以u的区间估计是(78.08,85.92)
其中这个区间是在95%置信水平下建立的,置信系数为0.05。区间(78.08,85.92)为95%的置信区间。
根据公式来计算区间,边际误差、区间估计如下图所示:
所以:
在90%,95%,99%的置信水平情况下:
所以90%,99%的置信水平下的置信区间为:
其实我们也能得出这样的结论:想要达到的置信水平越高,边际误差就要越大,置信区间也是越宽。
总体均值的区间估计:σ未知情形
1. 当σ未知时,我们需要利用同一个样本估计u和σ两个参数
2. 用s估计σ时,边际误差和总体均值的区间估计依据t分布
并且总体是不是正态分布用t分布来估计效果都是挺好的。
t分布
有一类相似的概率分布组成的分布族;某个特定的t分布依赖于自由度的参数;自由度越大,t分布与标准正态分布的差别越小;t分布的均值为0;
其中与z分布有类似的情况的是:
例如:
利用的计算公式如下:
边际误差:
区间估计
样本标准差
自由度:n-1
注:
样本容量的确定
我们可以选择足够的样本容量以达到所希望的边际误差
由于边际误差公式为:
所以总体均值区间估计中的样本容量为:
注:
如果σ未知,可通过以下方法确定σ的初始值
1. 根据以前研究中的数据计算总体标准差的估计值
2. 利用实验性研究,选取一个初始样本,以初始样本的标准差做估计值
3. 对σ进行判断或最优猜测:计算极差/4为标准差的粗略估计
如果σ未知,可通过以下方法确定σ的初始值
1. 根据以前研究中的数据计算总体标准差的估计值
2. 利用实验性研究,选取一个初始样本,以初始样本的标准差做估计值
3. 对σ进行判断或最优猜测:计算极差/4为标准差的粗略估计
总体比率p的区间估计
由于和总体均值的区间估计类似,这里就不详细说明了,直接上公式:
边际误差:
区间估计:
暂无评论