数据分析常用的知识点—区间估计

51zlzl
51zlzl 这家伙很懒,还没有设置简介

1 人点赞了该文章 · 4694 浏览

点估计是用于估计总体参数的样本统计量,但是我们不可能通过点估计就给出总体参数的一个精确值,更稳妥的方法是加减一个边际误差,通过一个区间值来估计(区间估计)

总体均值的区间的估计

总体均值的区间的估计:σ已知情形

对总体均值进行估计时:

1. 要利用总体标准差σ计算边际误差

2. 抽样前可通过大量历史数据估计总体标准差。

下面做一道例题感受下吧

这是一道有关顾客购物消费额的问题,根据历史数据,σ=20美元,并且总体服正态分布。现在抽取n=100名顾客的简单随机样本,其样本均值(x拔)=82美元。求总体均值的区间估计

开始解答:

1. 总体服从正态分布,所以样本均值的抽样分布也是正态分布。

2. 根据σ=20美元,得出

7293299e3e27a4902b55bec16140c63b.jpg

3. 所以x拔的抽样分布服从标准差为σ(x拔)=2的正态分布

4. 任何正态分布的随机变量都有95%的值在均值附近加减1.96个标准差以内(通过查表可得)

5. σ(x拔)=2,(x拔)所有值的95%都落在【u加减1.96σ(x拔)也即是u加减3.92】

也即是:

405438ea85c232305b25c9177a5fd116.jpg

(x拔)=82美元

f9f569d15cbd7ebe1adfce0d30f7d1ef.jpg

a03f3289b404e289b4f85ed569c7c598.jpg

所以u的区间估计是(78.08,85.92)

其中这个区间是在95%置信水平下建立的,置信系数为0.05。区间(78.08,85.92)为95%的置信区间。

根据公式来计算区间,边际误差、区间估计如下图所示:

b0159105743db2b5b5f684304536fa3a.jpg

所以:

3b796fbb92cea624843dce9a979035d9.jpg

在90%,95%,99%的置信水平情况下:

ac29d297fd7b17a927384e5080ef27c8.jpg?9854

所以90%,99%的置信水平下的置信区间为:

2793c421f94fb2adcdbc0d39a5f1cb02.jpg

其实我们也能得出这样的结论:想要达到的置信水平越高,边际误差就要越大,置信区间也是越宽。

总体均值的区间估计:σ未知情形

1. 当σ未知时,我们需要利用同一个样本估计u和σ两个参数

2. 用s估计σ时,边际误差和总体均值的区间估计依据t分布

并且总体是不是正态分布用t分布来估计效果都是挺好的。

t分布

有一类相似的概率分布组成的分布族;某个特定的t分布依赖于自由度的参数;自由度越大,t分布与标准正态分布的差别越小;t分布的均值为0;

其中与z分布有类似的情况的是:

9eaff580cdf25abdf5d327929bdc27f9.jpg

例如:

4cd4c2dca601822b14949c121d53cbe8.jpg

利用的计算公式如下:

边际误差:

c28a35d45f7e2ba0fe1e863943b2b55d.jpg

区间估计

cd12205999ac18e99c78d47e75a18fba.jpg

样本标准差

b1a9a3b4ffeeeee6ee99be2c4fcf8e0f.jpg

自由度:n-1

注:

ba466d6097bfe95062faeb65e741a7ca.jpg

样本容量的确定

我们可以选择足够的样本容量以达到所希望的边际误差

由于边际误差公式为:

8de7fde26cfc3cc740a2dfb3c6197a61.jpg

419c133a9d9ea9682e3c36e28295cab6.jpg

所以总体均值区间估计中的样本容量为:

f70b26b83d8bb2a2956d0d60704e5828.jpg

注:

699c8742fad174cfafa38d7e1e8e150f.jpg

如果σ未知,可通过以下方法确定σ的初始值

1. 根据以前研究中的数据计算总体标准差的估计值

2. 利用实验性研究,选取一个初始样本,以初始样本的标准差做估计值

3. 对σ进行判断或最优猜测:计算极差/4为标准差的粗略估计

如果σ未知,可通过以下方法确定σ的初始值

1. 根据以前研究中的数据计算总体标准差的估计值

2. 利用实验性研究,选取一个初始样本,以初始样本的标准差做估计值

3. 对σ进行判断或最优猜测:计算极差/4为标准差的粗略估计

  总体比率p的区间估计

由于和总体均值的区间估计类似,这里就不详细说明了,直接上公式:

边际误差:

cf6ade6a27a67413160eca300572add6.jpg

区间估计:

5ad3cd415515651225bb5ac82631461e.jpg

样本容量的确定
我们可以选择足够的样本容量以达到所希望的边际误差
边际误差:
42e8090b34e146a8a7989f6e7e0dba9f.jpg
所以样本容量为:
d71f47c7be64c4797fa6f6c4f1a3759f.jpg
由于抽样前(p拔)是未知的,不能用于计算达到预期的边际误差所要的样本容量,因此令(p星)表示(p拔)的计划值
781fabd9fb8359970dae303d528a149c.jpg
p星的确定
1. 用以前研究中类似的样本的样本比率作为计划值
2. 利用实验性的研究,选取一个初始样本,以初始样本的样本比例作为计划值。
3. 使用判断或最优猜测作为计划值
4. 如果上述均不可,计划值取为0.5,这是因为p(星)=0.5时,p星*(1-p星)取得最大值,同时样本容量也能取的最大值。

发布于 2021-10-15 09:02

免责声明:

本文由 51zlzl 原创发布于 质量人 ,著作权归作者所有。

登录一下,更多精彩内容等你发现,贡献精彩回答,参与评论互动

登录! 还没有账号?去注册

暂无评论