本篇文章整理常用的一些概率分布,这些经典的概率分布是实际生活中非常有用。之后的文章都会用到这些基础的概率分布。
离散型分布
离散型随机变量:随机变量可能取值能够一一列出来有限个或可列无限个。
假设离散型随机变量X,可能取值为x1,x2,⋯,xn,⋯,对应取值的概率为:
pk=P{X=xk},(k=1,2,⋯)
成为X的分布列或者概率分布,一般都用表格来表示。离散型随机变量具有两个性质:
- 非负性 pk≥0
- \sum_\limits{i=1} ^\infty p_k = 1
单点分布
随机变量X以概率1取常数c,即
P{X=c}=1
两点分布
随机变量X的概率分布为:
P{X=1}=p,P{X=0}=1−p
则称X服从两点分布或者0-1分布,两点分布是描述只有两种可能结果的随机现象的概率模型,如是或否,抛硬币的正面或者反面等。
二项分布
随机变量X的取值为0,1,2,3,...,n共n+1个,且概率分布为:
P{X=k}=Cnkpk(1−p)n−k
记X∼B(n,p),二项分布也成为伯努利分布。
二项分布的使用场景典型的是抓红黑球的实验。已知盒子里有20个大小材质相同的球,其中红球12个,黑球8个,又放回的从盒子中连续抽取5个球,求出红球的概率分布。类似这样的问题称为独立重复实验,抓到红球的概率为53,于是随机变量X服从B(5,0.6)的二项分布。
泊松分布
假设随机变量X的取值为0,1,2,3,...其概率分布为:
P{X=k}=k!λke−λ
其中λ>0则称X服从参数为λ的泊松分布,记为X∼P(λ)
泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。
几何分布
随机变量X表示在伯努利试验中,得到一次成功所需要的试验次数,如果每次试验的成功概率是p,那么k次试验中,第k次才得到成功的概率是
P{X=k}=(1−p)k−1p
其中k的取值不同,含义略有差异,下图中k从1开始取值,表示第k次才得到成功的概率,k从0开始取值,表示前面k次失败的概率,也就是k+1成功,两种都是几何分布。
连续型分布
连续性随机变量我们通常用概率密度函数来表示,如果随机变量X存在一个非负的可积函数p(x),对人意的实数a,b(a<b)均有
P{a<x≤b}=∫abf(x)dx
成立,称X为连续性随机变量,p(x)为X的概率密度函数,简称概率密度。
均匀分布
假设随机变量X的取值在区间(a,b)内,且具有概率密度
p(x)=b−a1,a<x<b
均匀分布的特点是对于一定长度的区间I⊆(a,b),无论在(a,b)的什么位置,只要长度不变,有相同的概率
P{X∈I}=∫Ib−adx=b−a∣∣I∣∣
正态分布
随机变量X的概率密度函数为
p(x)=σ2π1e−2σ2(x−μ)2,−∞<x<∞
其中 σ>0,μ 为常数,则称X服从参数σ,μ2的正态分布或者高斯分布。记为X∼N(μ,σ2)
指数分布
随机变量X取值于[0,+∞),且以
p(x)=λe−λx,x>0
指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、电话打进客服中心的时间间隔、中文维基百科新条目出现的时间间隔、机器的寿命等。
总结
本文简单的介绍了一些常用的概率分布,包括离散型和连续型,仅仅只是列举了概率分布,没有过多的介绍不同分布之间的内在关联,后续的文章还会继续介绍。