样本量的不一致,带来了很多误解和不准确。抽取1个样本全是假的或者3个样本全是正品,就推断该平台正品率0% 或者 100% 实在过于鲁莽。
那么,抽样调查中需要多少样本才算证据充分呢?实际上,统计学里,具备相应置信度的样本量是可以计算的。
抽样方法本身就会引起误差。在总体中随机抽取样本,样本均值x是总体均值μ的偏差就是抽样误差(E=μ-x)。这个误差的分布是符合标准正态分布的。
面对一个数量庞大的总体,样本量也要足够多(>30)时,可以用如下公式可以估算吃需要抽取的样本量[2]:
样本量
:方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多
E:
为抽样误差(可以根据均值的百分比设定)
:置信度,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;
由此可见,在保证一定置信度(样本某测量值的可信程度)的情况下,如果要将误差控制得越小,所需的样本量则越大。样本量太少,误差便会很大,对总体真实情况的推断和估计也就很难准确了。