记录一下自己目前还记得的对一些贝叶斯模型会用到的概念。
传统的统计学派需要的样本往往很大,而贝叶斯学派的贝叶斯分析在小样本的情况下也能得到较为准确的结论。古典频率派,如果该事件从来没有发生过则无法进行频率统计,而贝叶斯学派提出,概率并不是通过单纯从频率统计,而是个人信念(每个人认为的概率不一样)
MCMC通过后验分布抽样去逼近分布(计算规模随着维度的上升极剧上升,误差也不断上升,所有计算定积分失效)。
随机过程:相同时间t, X不断变化,但满足某一分布某一分布,当t不同,X分布可能不同,一组t和X为随机过程。
随机过程的马尔科夫性:系统t0所处的状态只与现在这个时刻相关,与以前的状态无关。
马尔科夫链: 时间和状态都是离散的马尔科夫过程。
转移概率矩阵:在两个状态之间转移可能发生情况的概率矩阵。齐次马氏链:只与状态之间的间隔有关,而与所处的状态点无关。任意的昨天推今天天气,都可以使用一步转移概率矩阵。语音识别,基因预测等都可以用到马尔科夫转移概率。
在说MCMC采样之前,先要知道什么是抽样。
抽样:取一些样本点出来,这些样本点服从概率分布。
MCMC采样算法:用马尔科夫过程实现抽样逼近,可以选择简单分布的q抽样,获得复杂分布的P的抽样。基于马氏链做采样的关键问题是如何构造转移矩阵P,使得平稳分布恰好是我们要的分布p(x)。迭代抽样,直到后面达到马氏链平稳,抽出来的数就会满足分布P。
MCMC-Metropolis-Hastings
该算法的一个明显弱点是,如果阿尔法很小,要很多次迭代才能接受转移。因此有了MCMC-Gibbs sampling
Gibbs sampling: 找到一个转移矩阵Q,使得接受率阿尔法=1。将高维连续的概率密度抽样简化为一维的概率分布密度抽样(而一元的抽样在数学中都可以解决)。
例如:我们现在有条件分布密度函数f(x1,x2....xk)需要抽样。首先我们需要算满条件分布密度函数,即f(x1|x2, x3...xk),或者f(x2|x1,x3...xk)...f(xk|x1,x2,x3...xk-1)。有了满条件分布以后,给一个初始点,(a1, a2...ak),把其带入第一个满条件分布f(x1|x2, x3...xk)=f(x1,x2...xk)/f(x2...xk)(只有x1不知道,其他的x2=a2,x3=a3...),相当于所有的满条件分布密度函数变成了一元的分布密度函数,可以实现抽样(b1,b2...bk)。最后又从(b1,b2...bk)出发,重复前面的步骤,当这个过程进行到一定时候以后,进入稳定状态,抽样的点就可以作为最后的抽样结果。