基本概念理解
1. 随机变量 random variable
我们用随机变量(Random Variable)来描述事件所有可能出现的状态,并使用概率分布(Probability Distribution)来描述每个状态出现的可能性。而随机变量又可以分为离散型随机变量(Discrete Random Variable)和连续型随机变量(Continuous Random Variable)。
1.1 离散型随机变量 Discrete Random Variable
如:抛硬币的结果(正面朝上)(正面朝下)、一个程序员每天掉多少根头发(0)(1)(…)(100)
1.2 连续型随机变量 Continuous Random Variable
如:一个人的体重是多少
2. 概率分布
概率分布,是指
用于表述随机变量取值的概率规律
。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率
,即随机试验的概率分布。如果试验结果用变量X的取值来表示,则随机试验的概率分布就是随机变量的概率分布,即随机变量的可能取值及取得对应值的概率。根据随机变量所属类型的不同,概率分布取不同的表现形式。
如:抛硬币的结果(正面 50%)(反面 50%)
3. 联合概率 Joint Probability
联合概率,是指在多元的概率分布中
多个随机变量分别满足各自条件的概率
。假设X和Y都服从正态分布,那么$P(X<4,Y<0)$就是一个联合概率,表示$X<4,Y<0$两个条件同时成立的概率。表示两个事件共同发生的概率。A与B的联合概率表示为$P(AB)$或者$P(A,B)$,或者$P(A∩B)$
如:
X -> 今天是否下雨
Y -> 今天喜欢的女孩子会不会带伞
4. 边缘概率 Marginal Probability
对于 $P(X, Y)$, $P(X)=\sum_{y}P(X, Y)=\sum_{y}P(X|Y)P(Y)$
在这个边缘分布中,我们得到只关于一个变量的概率分布,而
不再考虑另一变量的影响
,实际上进行了降维
操作。
对于离散型随机变量,通过联合概率 $P(x, y)$ 在 $y$ 上求和
,就可以得到 $P(x)$,这个 $P(x)$ 就是边缘概率。对于连续型随机变量,我们可以通过联合概率 $P(x, y)$ 在 $y$ 上的积分
,推导出边缘概率 $P(x)$
5. 条件概率
条件概率是指事件 A 在另外一个事件 B 已经发生条件下的发生概率
。条件概率表示为:$P(A|B)$,读作“在B的条件下A的概率
”。$P(A|B) = \frac{P(AB)}{P(B)}$
6. 数学期望
在概率论和统计学中,
一个离散性随机变量的期望值是试验中每次可能的结果乘以其结果概率的总和
$E(x)$。换句话说,期望值像是随机试验在同样的机会下重复多次,所有那些可能状态平均的结果,便基本上等同“期望值”所期望的数。期望值可能与每一个结果都不相等。换句话说,期望值是该变量输出值的加权平均。
7. 概率三角关系(联合概率、条件概率、边缘概率)
简单的说,
联合概率
是条件概率
和边缘概率
的乘积,也就是条件概率的定义式
采用通用的公式来表达就是:$$P(XY) = P(X|Y)P(Y)$$
或者:$$P(YX) = P(Y|X)P(X)$$
8. 贝叶斯定理
通过概率三角关系的两个定义式,可以推导出:
$$P(X|Y)P(Y)=P(Y|X)P(X)$$
$$P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)}$$
$P(X|Y)$ 是根据贝叶斯定理,通过
先验概率
$P(X)$、似然函数
$P(Y|X)$ 和边缘概率
$P(Y)$ 推算而来,因此我们把它称作后验概率
例子
随机变量 X 为:一个人说的话为真(T)、为假(F)
随机变量 Y 为:测谎仪判定为真话(T)、假话(F)
已知:$P(Y=T|X=T)=0.95, P(Y=F|X=F)=0.99$ 也就是说当一个人说假话时,有 0.99 的概率测谎仪会识别为假话,当一个人说真话时,测谎仪有 0.95 的概率会识别为真话
现在有一个人,说假话的概率 $P(X=F)=0.001$ 可以说非常低了,但测谎仪说这个人在说假话,那么测谎仪怎么判断测谎仪是否做出了正确的判断?
定义事件:$X=T|Y=F$ 即虽然测谎仪已经识别为假,但这个人实际上说了真话
先验概率:$$P(Y=F)=P(Y=F|X=T)P(X=T)+P(Y=F|X=F)P(X=F)=0.05\times0.999+0.99\times0.001=0.051$$
进行一个小转换后利用贝叶斯定理:
$$P(X=T|Y=F)=1-P(X=F|Y=F)=1-\frac {P(Y=F|X=F)P(X=F)}{P(Y=F)}=1-0.019=0.981$$
说明测谎仪的结果很可能是错误的,为什么会这么反直觉?根本原因在于 $P(X=F)=0.001$ 是反直觉的,如果 $P(X=F)=0.5$, 测谎仪的准确度就是正常的
先验概率:$$P(Y=F)=P(Y=F|X=T)P(X=T)+P(Y=F|X=F)P(X=F)=0.05\times0.5+0.99\times0.5=0.52$$
进行一个小转换后利用贝叶斯定理:
$$P(X=T|Y=F)=1-P(X=F|Y=F)=1-\frac {P(Y=F|X=F)P(X=F)}{P(Y=F)}=1-0.952=0.05$$
这不就好多了嘛:)
9. 随机变量的独立性
对于相互独立的 X, Y, 有
$$P(X|Y)=P(X), P(Y|X)=P(Y)$$
$$P(X,Y)=P(X|Y)P(Y)=P(X)P(Y)$$
朴素贝叶斯模型及应用
贝叶斯定理的核心思想:用
先验概率
和条件概率
估计后验概率
,朴素贝叶斯(Naive Bayesian) 即在贝叶斯定理的基础上,强调不同属性之间的完全独立性
常见的分布模型
1. 离散型分布
1.1 伯努利分布 Bernoulli Distribution
这是单个随机变量 x 的分布,而且这个变量 x 的取值只有两个,0 或 1。伯努利分布通过参数 λ 来控制这个变量为 1 的概率
$P(X) = \lambda^x(1-\lambda)^{1-x}$
1.2 分类分布 Categorical Distribution
它描述了一个具有 k 个不同状态的单个随机变量。这里的 k 是有限的数值,如果 k 为 2 的时候,那么分类分布就变成了伯努利分布
$P(X=k) = \lambda_k$
1.3 二项分布
略
1.4 泊松分布
略
2. 连续型分布
2.1 正态分布 Normal Distribution
也叫高斯分布(Gaussian Distribution),这个分布可以近似表示日常生活中很多数据的分布,我们经常使用它进行机器学习的特征工程,对原始数据
实施标准化
,使得不同范围的数据具有可比性。
$P(X) = \frac {1}{\sqrt{2\pi\sigma^2}}exp(-\frac {(x-\mu)^2}{2\sigma^2})$
其中 $\mu$ 是均值 $\sigma$ 是方差
###