数据分析常用的知识点—离散型概率分布和连续型概率分布
概率中通常将试验的结果称为随机变量。随机变量将每一个可能出现的试验结果赋予了一个数值,包含离散型随机变量和连续型随机变量。
既然随机变量可以取不同的值,统计学家就用概率分布描述随机变量取不同值的概率。相对应的,有离散型概率分布和连续型概率分布。
数学期望和方差
数学期望是对随机变量中心位置的一种度量。是试验中每次可能结果乘以其结果的概率的总和。简单说,它是概率中的平均值。
方差随机变量的变异性或者是分散程度的度量。
其中的u就是E(x).
离散型概率分布
二项概率分布
二项分布是一种离散型的概率分布。故明思义,二项代表它有两种可能的结果,把一种称为成功,另外一种称为失败。
除了结果的规定,它还需要满足其他性质:每次试验成功的概率均是相同的,记录为p;失败的概率也相同,为1-p。每次试验必须相互独立,该试验也叫做伯努利试验,重复n次即二项概率。掷硬币就是一个典型的二项分布。当我们要计算抛硬币n次,恰巧有x次正面朝上的概率,可以使用二项分布的公式:
且二项概率的数学期望为E(x) = np,方差Var(x) = np(1-p)。
泊松概率分布
泊松概率是另外一个常用的离散型随机变量,它主要用于估计某事件在特定时间或空间中发生的次数。比如一天内中奖的个数,一个月内某机器损坏的次数等。
泊松概率的成立条件是在任意两个长度相等的区间中,时间发生的概率是相同的,并且事件是否发生都是相互独立的。
泊松概率既然表示事件在一个区间发生的次数,这里的次数就不会有上限,x取值可以无限大,只是可能性无限接近0,f(x)的最终值很小。
x代表发生x次,u代表发生次数的数学期望,概率函数为:
其中泊松概率分布的数学期望和方差是相等的。
连续型概率分布
上述分布都是离散概率分布,当随机变量是连续型时,情况就完全不一样了。因为离散概率的本质是求x取某个特定值的概率,而连续随机变量不行,它的取值是可以无限分割的,它取某个值时概率近似于0。连续变量是随机变量在某个区间内取值的概率,此时的概率函数叫做概率密度函数。
均匀概率分布
随机变量x在任意两个子区间的概率是相同的。
均匀概率密度函数
数学期望
方差
正态概率分布
正态概率分布是连续型随机变量中最重要的分布。世界上绝大部分的分布都属于正态分布,人的身高体重、考试成绩、降雨量等都近似服从。
正态分布如同一条钟形曲线。中间高,两边低,左右对称。想象身高体重、考试成绩,是否都呈现这一类分布态势:大部分数据集中在某处,小部分往两端倾斜。
正态概率密度函数为:
u代表均值,σ代表标准差,两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大曲线越平坦。
一个正态分布的经验法则:
正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。
均值u=0,标准差σ=1的正态分布叫做标准正态分布。它的随机变量用z表示,将均值和标准差代入正态概率密度函数,得到一个简化的公式:
为了计算概率需要学习一个新的函数叫累计分布函数,它是概率密度函数的积分。用P(X<=x)表示随机变量小于或者等于某个数值的概率,F(x) = P(X<=x)。
曲线f(x)就是概率密度函数,曲线与X轴相交的阴影面积就是累计分布函数。
标准正态分布的分布函数
图像如下:
计算三种类型的概率(这里需要说明一点,只有标准正态分布时,随机变量才用z表示)
1. z小于或者等于某个给定值的概率,直接带入分布函数得出
如:p(z<=1)=φ(1)=0.8413 (1值左边标准正态曲线下的面积)
2. z在给定的两个值之间的概率
如:P(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) =φ(1.25)-φ(1) =0.735
3. z大于或者等于某个给定值的概率
如:P(z>1) = 1-P(z<=1) =1-φ(1)= 0.1586
标准正态分布与一般的正态分布的关系:
任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。它依据的定理如下:
下面做一道题目练习吧!
现在有一个u=10和σ=2的正态随机变量,求x在10与14之间的概率是多少?
当x=10时,z=(10-10)/2=2。当x=14时,z=(14-10)/2=2。于是x在10和14之间的概率等价于标准正态分布中0和2之间的概率。计算P(0<=z<=2) =P(z<=2) – P(z<=0) =0.4772。
指数概率分布
指数概率密度函数
其中,x>=0,u为均值,e=2.71828;
计算概率
指数随机变量取小于或者等于某一特定值X0的概率
且指数概率分布的期望=标准差
指数分布vs泊松分布
泊松分布:1.是离散型概率分布 2.描述每一区间中事件发生的次数
指数分布:1.是连续型概率分布 2.描述事件发生的时间间隔的长度
为了说明问题,简单举两个小例子
a.20分钟内购买肯德基早餐的人数的均值是10人,那么如果求每20分钟有x人购买的概率,就应该用泊松概率函数
b.20分钟内购买肯德基早餐的人数的均值是10人,那么如果求每20分钟这一区间内,两位顾客购买的时间间隔为小于x0的概率,就应该用指数概率函数。
购买的间隔均值为u=10/20=0.5
把u带入下面的公式
暂无评论