数据分析常用的知识点—抽样和抽样分布
首先不管是从有限总体中抽样还是从无限总体中抽样都应该满足抽样的随机性。
抽样
我们抽样得出样本统计量就是为了估计总体的参数
样本均值(x拔)是总体均值的u的点估计
样本标准差s是总体的标准差σ的点估计
样本比率(p拔)是总体比率的p的点估计
抽样分布
其实当我们抽样的时候,我们抽取的每个样本的均值、方差、比率,可能都是不同的,如果我们把抽取一个简单的随机样本看作一次试验,那么(x拔)就有期望、方差、标准差和概率分布了((x拔)的概率分布也就是(x拔)的抽样分布)
样本均值的抽样分布
(x拔)的抽样:样本均值(x拔)的所有可能值的概率分布
(x拔)的数学期望:
其中u是总体的期望
(x拔)的标准差
当样本容量占总体5%以上时,有求样本标准差公式如下:
当样本容量占总体5%以下时,公式可以简化成:
其中n是样本容量,N是总体容量,σ是总体标准差,σ(x拔)是样本标准差
重点来了:
1. 如果总体服从正态分布时:任何样本容量下的(x拔)的抽样分布都是正态分布。
2. 总体不服从正态分布时:
a.中心极限定理:从总体中抽取容量为n的简单随机样本,当样本的容量额很大时,样本均值(x拔)的抽样分布近似服从正态概率分布。
b.其实在大多数的应用中,样本容量大于30时,(x拔)的抽样分布近似服 从正态概率分布
样本比率的抽样分布
(p拔)的抽样:样本比率(p拔)的所有可能值的概率分布
其中:x=具有感兴趣特征的个体的个数,n=样本容量
(p拔)的数学期望:
其中,p=总体比率
(p拔)的标准差:
当样本容量占总体5%以上时,有求样本标准差公式如下:
当样本容量占总体5%以下时,公式可以简化成:
其中n是样本容量,N是总体容量,p是总体比率,σ(p拔)是样本标准差
(p拔)的抽样分布形态:
在上面的公式之中,x是一个服从二项分布的随机变量,n为常数,所以(p拔)也是离散型的概率分布。其实,如果样本容量足够大,并且np>=5和n(1-p)>=5,二项分布可用正态分布近似,(p拔)的抽样分布可用正态分布来近似。
暂无评论