数据分析常用的知识点—概率
概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正面,反面},而正面朝上这一特定的试验结果叫样本点。对于样本空间少的试验,我们极易观察出他们样本空间的大小,而对于较复杂的试验,我们就需要学习些计数法则了。
计数法则
多步骤试验的计数法则
如果一个试验可以分为循序的k个步骤,在第1步中有N1种试验结果,在第2步中有N2种试验结果...以此类推。那么所有的试验结果的总数为N1*N2*N3...*Nk。
举例:抛两枚硬币,第一枚有正反两种结果,第二枚有正反两种结果。所以试验结果的总数是 2X2=4
组合计数法则
从N项中任取n项的组合数:
N和n的上下位置与我们平常见的是相反的。因为我们这里是以欧美规范为主。
举例子:从5个彩色球中,选出2个彩球,有多少种选法?
排列计数法则
从N项中任取n项的排列数
举例子:从5个彩色球中,选出2个彩球,有多少种排列方法?
代入得出答案是20种
事件及其概率
事件
其实事件为样本空间的一个子集,通常,如果能确定一个试验的所有样本点并且能够知晓每个样本点的概率,那么我们就能求出事件的概率。
概率的基本性质
事件A的补:指的是所有不包含在事件A中的样本点所以事件A发生的
概率 P(A)=1-P(A-)
事件的组合:并和交
两个圆形区域所在的部分就是事件A和B的并,其中重叠的部分说明有一些样本点即属于A又属于B,它可以称之为交。
得出加法公式为:
P(A∪B) = P(A)+P(B) – P(A∩B)。P(A∪B) 是两个圆形面积,P(A)是蓝色圆面积,P(B)是橙色圆面积,当两者相加时,会多出一块重叠区域,于是减去P(A∩B)进行修正,得出正确的结果。
如果某个事件A发生的可能性受到另外一个事件B的影响,此时A发生的可能性叫做条件概率,记作P(A|B)。表明我们是在B条件已经发生的条件下考虑A发生的可能性,统计学中称为给定条件B下事件A的概率。
进而又得出了乘法公式:
贝叶斯定理
简单的来讲,贝叶斯定理其实就是,我们先假设一个事件发生的概率,然后又找到一个信息,最后得出在这个信息下这一事件发生的概率。
举一个我们生活中的例子,当我们和一个被怀疑做坏事的人聊天时,我们首先假设他做坏事的概率为a,然后我们根据和他交谈的信息,得出对他新的认识,重新判断他做坏事的概率b.
贝叶斯就是阐述了这么一个事实:
新信息出现后B的概率=B的概率 X 新信息带来的调整
如果当直接计算P(A)较为困难时,而P(Bj),P(A|Bj) (j=1,2,...)的计算较为简单时,可以利用全概率公式计算P(A)。
思想就是,将事件A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进行分割,而是先找到样本空间Ω的一个个划分B1,B2,...Bn,这样事件A就被事件AB1,AB2,...ABn分解成了n部分,即A=AB1+AB2+...+ABn, 每一Bj发生都可能导致A发生相应的概率是P(A|Bj),由加法公式得
P(A)=P(AB1)+P(AB2)+....+P(ABn)
=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)
所以调整后的贝叶斯公式为:
暂无评论