引言

上一节介绍了信念传播算法(Belief Propagation,BP)的思想以及具体算法过程，本节将介绍精确推断中的最大乘积算法(Max-Product Algorithm)。

回顾：推断的本质

已知数据集合X\mathcal XX共包含ppp维特征，并且假设每个特征都是离散型随机变量：
X={x1,x2,⋯,xp}\mathcal X = \{x_1,x_2,\cdots,x_p\}X={x1,x2,⋯,xp}
根据概率图的性质，这ppp维特征并非存在ppp个结点，而是每个结点可能包含一个/多个特征，这里假定共存在nnn个结点。我们关心的重点并不在结点的数量，而在于边的信息。假设随机变量X\mathcal XX表示的概率图中存在K\mathcal KK条边，即：
每一条边ei(i=1,2,⋯,K)e_{i}(i=1,2,\cdots,\mathcal K)ei(i=1,2,⋯,K)表示某两个结点之间的关联关系。概率图给定的条件下，将其理解成‘已知信息’。
E={e1,e2,⋯,eK}\mathcal E = \{e_1,e_2,\cdots,e_{\mathcal K}\}E={e1,e2,⋯,eK}

在推断基本介绍中提到，推断的本质即变量/特征概率的计算。如：

变量/特征的边缘概率：
概率的加法/积分运算~,这里xi(i=1,2,⋯,n)x_i(i=1,2,\cdots,n)xi(i=1,2,⋯,n)并非表示维度特征，而表示结点所包含的特征集合。
P(xi)=∑x1⋯∑xi−1∑xi+1⋯∑xnP(X)\mathcal P(x_i) = \sum_{x_1} \cdots\sum_{x_{i-1}}\sum_{x_{i+1}} \cdots \sum_{x_n} \mathcal P(\mathcal X)P(xi)=x1∑⋯xi−1∑xi+1∑⋯xn∑P(X)
从概率图的角度观察，基于边的边缘概率P(ei)\mathcal P(e_i)P(ei)，其本质上是某两个结点关联关系的概率：
- 从有向图的角度观察，该关联关系使用条件概率进行表示：
  P(ei)=P(xi→end∣xi→start)\mathcal P(e_i) = \mathcal P(x_{i \to end} \mid x_{i \to start})P(ei)=P(xi→end∣xi→start)
  其中xi→startx_{i \to start}xi→start表示边eie_iei的起始点，xi→endx_{i \to end}xi→end表示eie_iei的终止点。
- 从无向图的角度观察，该关联关系使用势函数进行表示：
  不同于‘有向图’中eie_iei的有向性，无向图中xi→start,xi→endx_{i \to start},x_{i \to end}xi→start,xi→end没有顺序性，只是借用上述符号而已。
  P(ei)=ψ(xi→start,xi→end)\mathcal P(e_i) = \psi(x_{i \to start},x_{i \to end})P(ei)=ψ(xi→start,xi→end)
变量/特征的条件概率：将结点分成如下两个子集xA,xBx_{\mathcal A},x_{\mathcal B}xA,xB，结点集合间的条件概率分布表示如下：
概率的乘法运算~
P(xA∣xB)xA∪xB=X\mathcal P(x_{\mathcal A} \mid x_{\mathcal B}) \quad x_{\mathcal A} \cup x_{\mathcal B} = \mathcal XP(xA∣xB)xA∪xB=X
在给定概率图的条件下，边本身的含义即确定了的结点/特征之间的关联关系。因此基于边的条件概率，实际上是 给定关联关系的条件下，关联关系对应结点的后验概率。即：
P(X∣E)\mathcal P(\mathcal X \mid \mathcal E)P(X∣E)
根据任务需要，可能并不需要完整结点集合X\mathcal XX的概率结果，而只关心部分结点的后验概率结果。如：
P(xB∣E)=∑xAP(X∣E)\mathcal P(x_{\mathcal B} \mid \mathcal E) = \sum_{x_{\mathcal A}} \mathcal P(\mathcal X \mid \mathcal E)P(xB∣E)=xA∑P(X∣E)
基于变量/特征的最大后验概率推断：
根据条件概率公式：
P(xB∣xA)=P(xA,xB)P(xA)\mathcal P(x_{\mathcal B} \mid x_{\mathcal A}) = \frac{\mathcal P(x_{\mathcal A} ,x_{\mathcal B})}{\mathcal P(x_{\mathcal A})}P(xB∣xA)=P(xA)P(xA,xB)
在求解关于xBx_{\mathcal B}xB的最优解xB^\hat {x_{\mathcal B}}xB^时，由于分母P(xA)\mathcal P(x_{\mathcal A})P(xA)与xBx_{\mathcal B}xB无关，有：
xB^=arg⁡max⁡xBP(xB∣xA)∝arg⁡max⁡xBP(xA,xB)\hat {x_{\mathcal B}} = \mathop{\arg\max}\limits_{x_{\mathcal B}} \mathcal P(x_{\mathcal B} \mid x_{\mathcal A}) \propto \mathop{\arg\max}\limits_{x_{\mathcal B}} \mathcal P(x_{\mathcal A},x_{\mathcal B})xB^=xBargmaxP(xB∣xA)∝xBargmaxP(xA,xB)
基于边的最大后验概率推断，最终得到给定结点之间的关联关系(边)，从而找到表示优秀性能的结点组成的序列。因此有：
X^=arg⁡max⁡XP(X∣E)\hat {\mathcal X} = \mathop{\arg\max}\limits_{\mathcal X} \mathcal P(\mathcal X \mid \mathcal E)X^=XargmaxP(X∣E)
同理，局部最优序列也可进行如下表示：
xA^=arg⁡max⁡xAP(xA∣E)\hat {x_{\mathcal A}} = \mathop{\arg\max}\limits_{x_{\mathcal A}} \mathcal P(x_{\mathcal A} \mid \mathcal E)xA^=xAargmaxP(xA∣E)

回顾：维特比算法

在介绍隐马尔可夫模型的解码问题中介绍了维特比算法(Viterbi Algorithm)。解码问题的本质即给定观测序列O={o1,⋯,oT}\mathcal O = \{o_1,\cdots,o_T\}O={o1,⋯,oT}，求解对应状态序列的后验概率P(I∣O,λ)\mathcal P(\mathcal I \mid \mathcal O,\lambda)P(I∣O,λ)。
λ\lambdaλ表示隐马尔可夫模型的参数变量→π,A,B\to \pi,\mathcal A,\mathcal B→π,A,B

但使用的方法并非直接求解P(I∣O,λ)\mathcal P(\mathcal I \mid \mathcal O,\lambda)P(I∣O,λ)，而是通过找出 P(I,O∣λ)\mathcal P(\mathcal I,\mathcal O \mid \lambda)P(I,O∣λ)的最优解在相邻时刻间的关联关系：
其中It\mathcal I_tIt表示状态序列{i1,⋯,it}\{i_1,\cdots,i_t\}{i1,⋯,it},其他符号It+1,Ot,Ot+1\mathcal I_{t+1},\mathcal O_t,\mathcal O_{t+1}It+1,Ot,Ot+1同理。
δt=max⁡It−1P(It∣Ot,λ)∝max⁡It−1P(It,Ot∣λ)δt+1=max⁡ItP(It+1∣Ot+1,λ)∝max⁡ItP(It+1,Ot+1∣λ)δt→δt+1\delta_t = \mathop{\max}\limits_{\mathcal I_{t-1}} \mathcal P(\mathcal I_t \mid \mathcal O_t,\lambda) \propto \mathop{\max}\limits_{\mathcal I_{t-1}} \mathcal P(\mathcal I_t,\mathcal O_t \mid \lambda) \\ \delta_{t+1} = \mathop{\max}\limits_{\mathcal I_t} \mathcal P(\mathcal I_{t+1} \mid \mathcal O_{t+1},\lambda) \propto \mathop{\max}\limits_{\mathcal I_t} \mathcal P(\mathcal I_{t+1},\mathcal O_{t+1} \mid \lambda) \\ \delta_t \to \delta_{t+1}δt=It−1maxP(It∣Ot,λ)∝It−1maxP(It,Ot∣λ)δt+1=ItmaxP(It+1∣Ot+1,λ)∝ItmaxP(It+1,Ot+1∣λ)δt→δt+1
从初始时刻开始，将迭代过程的中间步骤记录下来，从而找出一条最优状态序列IT^\hat {\mathcal I_T}IT^。由于最优序列的子集同样是最优的，因此任意两个时刻之间的状态序列均可以通过记录查找的方式获取，从而减少运算时间(动态规划问题)。
这明显是两步操作;
1. 本质上是描述max⁡It−1P(It∣Ot,λ)\mathop{\max}\limits_{\mathcal I_{t-1}} \mathcal P(\mathcal I_t \mid \mathcal O_t,\lambda)It−1maxP(It∣Ot,λ)和max⁡ItP(It+1∣Ot+1,λ)\mathop{\max}\limits_{\mathcal I_t} \mathcal P(\mathcal I_{t+1} \mid \mathcal O_{t+1},\lambda)ItmaxP(It+1∣Ot+1,λ)之间的关联关系；
2. 通过‘最大后验概率推断’将步骤1的操作转化为max⁡It−1P(It,Ot∣λ)\mathop{\max}\limits_{\mathcal I_{t-1}} \mathcal P(\mathcal I_t,\mathcal O_t \mid \lambda)It−1maxP(It,Ot∣λ)和max⁡ItP(It+1,Ot+1∣λ)\mathop{\max}\limits_{\mathcal I_{t}} \mathcal P(\mathcal I_{t+1},\mathcal O_{t+1} \mid \lambda)ItmaxP(It+1,Ot+1∣λ)之间的关联关系。

最大乘积算法

回顾：信念传播

信念传播的算法思想中，结点间的消息传递方式只是其中一部分，在 消息传递的过程中，将结点之间的消息记录下来并进行存储。一旦需要计算其他结点的边缘概率分布时，可以直接通过消息查找的方式进行计算，从而节省大量运算时间。
由于‘概率图结构’是给定不变的，因此无论从哪个结点作为根结点进行迭代，任意存在关联关系的‘结点对’xj,xkx_j,x_kxj,xk之间消息传递的结果mj→k(xk)m_{j \to k}(x_k)mj→k(xk)都不会发生变化。
xj,xkx_j,x_kxj,xk之间的 消息传递结果mj→k(xk)m_{j \to k}(x_k)mj→k(xk) 表示如下：
{mj→k(xk)=∑xjψjk(xj,xk)⋅∏l∈n(i),l≠kml→j(xj)P(xi)∝∏k∈n(i)mk→i(xi)\begin{cases} m_{j \to k}(x_k) = \sum_{x_j} \psi_{jk}(x_j,x_k) \cdot \prod_{l \in n(i),l \neq k} m_{l \to j}(x_j) \\ \mathcal P(x_i) \propto \prod_{k \in n(i)} m_{k \to i}(x_i) \end{cases}{mj→k(xk)=∑xjψjk(xj,xk)⋅∏l∈n(i),l=kml→j(xj)P(xi)∝∏k∈n(i)mk→i(xi)

对于联合概率分布的误区

联合概率分布并非某一具体数值，而是在变量取不同结果过程中，联合概率分布也会发生相应变化：

例如存在一枚质地不均匀的硬币，其正面朝上的概率P(up)=0.3\mathcal P(up) = 0.3P(up)=0.3，反面朝上的概率P(down)=0.7\mathcal P(down)=0.7P(down)=0.7，投掷两次该硬币，第一次变量结果记作x1x_1x1，第二次变量结果记作x2x_2x2，针对四种情况：(正,正),(正,反),(反,正),(反,反) 对应的概率结果表示如下：

	正	反
正	0.090.090.09	0.210.210.21
反	0.210.210.21	0.490.490.49

那么对应联合概率结果存在333种情况：0.09,0.21,0.490.09,0.21,0.490.09,0.21,0.49

由于设定数据集合X\mathcal XX中的各特征是离散型随机变量，因此 各特征内存在对应取值，并且每个取值对应相应概率结果。从而对应的联合概率分布结果也会存在多种情况。
这里并不局限于‘离散型随机变量’，连续型随机变量同样也会存在多种情况。

最大乘积算法(Max-Product Algorithm)示例

最大乘积算法既可以求解某结点变量的边缘概率分布，也可以求解多个结点变量的联合概率分布。

与信念传播算法之间不同的是，它求解的均是最大概率分布。而具体的迭代方式依然使用信念传播方法。

已知一个马尔可夫随机场表示如下：
马尔可夫随机场-示例
求解目标包含两个阶段：

所有结点的最大联合概率分布；
最优结点变量的边缘概率分布；

具体传播过程如上述蓝色箭头所示，逐步推导迭代过程：

首先观察结点变量i8,i9i_8,i_9i8,i9，它们均只和i2i_2i2相关联，因此结点变量i9i_9i9基于自身随机变量的取值，向结点变量i2i_2i2传递的最大消息m9→2(i2)m_{9 \to 2}(i_2)m9→2(i2) 表示如下：
需要注意的问题：m9→2(i2)m_{9 \to 2}(i_2)m9→2(i2)中的变量只包含i2i_2i2，因为i9i_9i9已经选择了‘使ψ92(i9,i2)\psi_{92}(i_9,i_2)ψ92(i9,i2)达到最大所对应的取值。下面同理。
m9→2(i2)=max⁡i9ψ92(i9,i2)m_{9 \to 2}(i_2) = \mathop{\max}\limits_{i_9} \psi_{92}(i_9,i_2)m9→2(i2)=i9maxψ92(i9,i2)
同理，结点变量i8i_8i8向结点变量i2i_2i2传递的最大消息m8→2(i2)m_{8 \to 2}(i_2)m8→2(i2) 表示如下：
m8→2(i2)=max⁡i8ψ82(i8,i2)m_{8 \to 2}(i_2) = \mathop{\max}\limits_{i_8} \psi_{82}(i_8,i_2)m8→2(i2)=i8maxψ82(i8,i2)
至此，i8,i9i_8,i_9i8,i9两个变量结点的路径全部处理完毕。i2,i8,i9i_2,i_8,i_9i2,i8,i9三个变量结点的最大联合概率分布max⁡i2,i8,i9P(i2,i8,i9)\mathop{\max}\limits_{i_2,i_8,i_9} \mathcal P(i_2,i_8,i_9)i2,i8,i9maxP(i2,i8,i9)表示如下：
这里将i2,i8,i9i_2,i_8,i_9i2,i8,i9看成一个独立的子图，后续同理。
max⁡i2,i8,i9P(i2,i8,i9)=max⁡i2m9→2(i2)⋅m8→2(i2)\mathop{\max}\limits_{i_2,i_8,i_9} \mathcal P(i_2,i_8,i_9) = \mathop{\max}\limits_{i_2} m_{9 \to 2}(i_2) \cdot m_{8 \to 2}(i_2)i2,i8,i9maxP(i2,i8,i9)=i2maxm9→2(i2)⋅m8→2(i2)
此时变量结点i2,i8,i9i_2,i_8,i_9i2,i8,i9的最优取值i2∗,i8∗,i9∗i_2^*,i_8^*,i_9^*i2∗,i8∗,i9∗也可以被表示出来：
后面省略了~
i2∗,i8∗,i9∗=arg⁡max⁡i2,i8,i9P(i2,i8,i9)i_2^*,i_8^*,i_9^* = \mathop{\arg\max}\limits_{i_2,i_8,i_9} \mathcal P(i_2,i_8,i_9)i2∗,i8∗,i9∗=i2,i8,i9argmaxP(i2,i8,i9)
继续观察结点变量i6,i7i_6,i_7i6,i7，它们均只和i1i_1i1相关联，与i8,i9i_8,i_9i8,i9同理，m7→1(i1),m6→1(i1)m_{7 \to 1}(i_1),m_{6 \to 1}(i_1)m7→1(i1),m6→1(i1)以及最大联合概率分布max⁡i1,i6,i7P(i1,i6,i7)\mathop{\max}\limits_{i_1,i_6,i_7} \mathcal P(i_1,i_6,i_7)i1,i6,i7maxP(i1,i6,i7)分别表示如下：
m7→1(i1)=max⁡i7ψ71(i7,i1)m6→1(i1)=max⁡i6ψ61(i6,i1)max⁡i1,i6,i7P(i1,i6,i7)=max⁡i1m7→1(i1)⋅m6→1(i1)\begin{aligned} m_{7 \to 1}(i_1) & = \mathop{\max}\limits_{i_7} \psi_{71}(i_7,i_1)\\ m_{6 \to 1}(i_1)& = \mathop{\max}\limits_{i_6} \psi_{61}(i_6,i_1) \\ \mathop{\max}\limits_{i_1,i_6,i_7} \mathcal P(i_1,i_6,i_7) & = \mathop{\max}\limits_{i_1} m_{7 \to 1}(i_1) \cdot m_{6 \to 1}(i_1) \end{aligned}m7→1(i1)m6→1(i1)i1,i6,i7maxP(i1,i6,i7)=i7maxψ71(i7,i1)=i6maxψ61(i6,i1)=i1maxm7→1(i1)⋅m6→1(i1)
继续观察i1,i2,i3i_1,i_2,i_3i1,i2,i3部分，i1,i2i_1,i_2i1,i2变量结点向i3i_3i3传递的最大消息m1→3(i3),m2→3(i3)m_{1 \to 3}(i_3),m_{2 \to 3}(i_3)m1→3(i3),m2→3(i3)分别表示如下：
相比于子集合{i2,i8,i9},{i1,i6,i7}\{i_2,i_8,i_9\},\{i_1,i_6,i_7\}{i2,i8,i9},{i1,i6,i7},随着迭代的加深，子集合扩张了~
m1→3(i3)=max⁡i1ψ13(i1,i3)⋅m7→1(i1)⋅m6→1(i1)m2→3(i3)=max⁡i2ψ23(i2,i3)⋅m9→2(i2)⋅m8→2(i2)m_{1 \to 3}(i_3) = \mathop{\max}\limits_{i_1} \psi_{13}(i_1,i_3) \cdot m_{7 \to 1}(i_1) \cdot m_{6 \to 1}(i_1)\\ m_{2 \to 3}(i_3) = \mathop{\max}\limits_{i_2} \psi_{23}(i_2,i_3) \cdot m_{9 \to 2}(i_2) \cdot m_{8 \to 2}(i_2)m1→3(i3)=i1maxψ13(i1,i3)⋅m7→1(i1)⋅m6→1(i1)m2→3(i3)=i2maxψ23(i2,i3)⋅m9→2(i2)⋅m8→2(i2)
因此，对应最大联合概率分布P(i1,i2,i3,i6,i7,i8,i9)\mathcal P(i_1,i_2,i_3,i_6,i_7,i_8,i_9)P(i1,i2,i3,i6,i7,i8,i9)对应表示如下：
max⁡i1,i2,i3,i6,i7,i8,i9P(i1,i2,i3,i6,i7,i8,i9)=max⁡i3m1→3(i3)⋅m2→3(i3)\begin{aligned} \mathop{\max}\limits_{i_1,i_2,i_3,i_6,i_7,i_8,i_9}P(i_1,i_2,i_3,i_6,i_7,i_8,i_9) & = \mathop{\max}\limits_{i_3} m_{1 \to 3}(i_3) \cdot m_{2 \to 3}(i_3) \end{aligned}i1,i2,i3,i6,i7,i8,i9maxP(i1,i2,i3,i6,i7,i8,i9)=i3maxm1→3(i3)⋅m2→3(i3)
最终剩余结点变量i4i_4i4，该点只与i3i_3i3相关联，因此m3→4(i4)m_{3 \to 4}(i_4)m3→4(i4)可表示为：
m3→4(i4)=max⁡i3ψ34(i3,i4)⋅m1→3(i3)⋅m2→3(i3)m_{3 \to 4}(i_4) = \mathop{\max}\limits_{i_3} \psi_{34}(i_3,i_4) \cdot m_{1 \to 3}(i_3) \cdot m_{2 \to 3}(i_3)m3→4(i4)=i3maxψ34(i3,i4)⋅m1→3(i3)⋅m2→3(i3)
对应最大联合概率分布P(i1,i2,i3,i4,i6,i7,i8,i9)\mathcal P(i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9)P(i1,i2,i3,i4,i6,i7,i8,i9)对应表示如下：
max⁡i1,i2,i3,i4,i6,i7,i8,i9P(i1,i2,i3,i4,i6,i7,i8,i9)=max⁡i4m3→4(i4)\mathop{\max}\limits_{i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9}\mathcal P(i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9) = \mathop{\max}\limits_{i_4} m_{3 \to 4}(i_4)i1,i2,i3,i4,i6,i7,i8,i9maxP(i1,i2,i3,i4,i6,i7,i8,i9)=i4maxm3→4(i4)

至此，整个概率图全部遍历结束，对上述结果进行整理，该概率图的最大联合概率分布 表示如下：
max⁡i1,i2,i3,i4,i6,i7,i8,i9P(i1,i2,i3,i4,i6,i7,i8,i9)=max⁡i4m3→4(i4)=max⁡i4max⁡i3ψ34(i3,i4)⋅m1→3(i3)⋅m2→3(i3)=max⁡i4max⁡i3ψ34(i3,i4)⋅(max⁡i1ψ13(i1,i3)⋅m7→1(i1)⋅m6→1(i1))⋅(max⁡i2ψ23(i2,i3)⋅m9→2(i2)⋅m8→2(i2))=max⁡i4max⁡i3ψ34(i3,i4)⋅[max⁡i1ψ13(i1,i3)⋅(max⁡i7ψ71(i7,i1))⋅(max⁡i6ψ61(i6,i1))]⋅[max⁡i2ψ23(i2,i3)⋅(max⁡i9ψ92(i9,i2))⋅(max⁡i8ψ82(i8,i2))]\begin{aligned} & \mathop{\max}\limits_{i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9}\mathcal P(i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9) \\ & = \mathop{\max}\limits_{i_4} m_{3 \to 4}(i_4) \\ & = \mathop{\max}\limits_{i_4} \mathop{\max}\limits_{i_3} \psi_{34}(i_3,i_4) \cdot m_{1 \to 3}(i_3) \cdot m_{2 \to 3}(i_3) \\ & = \mathop{\max}\limits_{i_4} \mathop{\max}\limits_{i_3} \psi_{34}(i_3,i_4) \cdot \left(\mathop{\max}\limits_{i_1} \psi_{13}(i_1,i_3) \cdot m_{7 \to 1}(i_1) \cdot m_{6 \to 1}(i_1)\right) \cdot \left(\mathop{\max}\limits_{i_2} \psi_{23}(i_2,i_3) \cdot m_{9 \to 2}(i_2) \cdot m_{8 \to 2}(i_2)\right) \\ & = \mathop{\max}\limits_{i_4} \mathop{\max}\limits_{i_3} \psi_{34}(i_3,i_4) \cdot \left[\mathop{\max}\limits_{i_1} \psi_{13}(i_1,i_3) \cdot \left(\mathop{\max}\limits_{i_7} \psi_{71}(i_7,i_1)\right) \cdot \left(\mathop{\max}\limits_{i_6} \psi_{61}(i_6,i_1)\right)\right] \cdot \left[\mathop{\max}\limits_{i_2} \psi_{23}(i_2,i_3) \cdot \left(\mathop{\max}\limits_{i_9} \psi_{92}(i_9,i_2)\right) \cdot \left(\mathop{\max}\limits_{i_8} \psi_{82}(i_8,i_2)\right)\right] \end{aligned}i1,i2,i3,i4,i6,i7,i8,i9maxP(i1,i2,i3,i4,i6,i7,i8,i9)=i4maxm3→4(i4)=i4maxi3maxψ34(i3,i4)⋅m1→3(i3)⋅m2→3(i3)=i4maxi3maxψ34(i3,i4)⋅(i1maxψ13(i1,i3)⋅m7→1(i1)⋅m6→1(i1))⋅(i2maxψ23(i2,i3)⋅m9→2(i2)⋅m8→2(i2))=i4maxi3maxψ34(i3,i4)⋅[i1maxψ13(i1,i3)⋅(i7maxψ71(i7,i1))⋅(i6maxψ61(i6,i1))]⋅[i2maxψ23(i2,i3)⋅(i9maxψ92(i9,i2))⋅(i8maxψ82(i8,i2))]

由于知道了各阶段的联合概率分布，边缘概率分布的计算变得非常简单。以i4i_4i4结点为例。现在已知联合概率分布P(i1,i2,i3,i4,i6,i7,i8,i9)\mathcal P(i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9)P(i1,i2,i3,i4,i6,i7,i8,i9)和概率分布P(i1,i2,i3,i6,i7,i8,i9)\mathcal P(i_1,i_2,i_3,i_6,i_7,i_8,i_9)P(i1,i2,i3,i6,i7,i8,i9)，i4i_4i4的边缘概率分布直接做除法即可：
P(i4∗)=max⁡i1,i2,i3,i4,i6,i7,i8,i9P(i1,i2,i3,i4,i6,i7,i8,i9)max⁡i1,i2,i3,i6,i7,i8,i9P(i1,i2,i3,i6,i7,i8,i9)\mathcal P(i_4^*) = \frac{\mathop{\max}\limits_{i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9}\mathcal P(i_1,i_2,i_3,i_4,i_6,i_7,i_8,i_9)}{\mathop{\max}\limits_{i_1,i_2,i_3,i_6,i_7,i_8,i_9}\mathcal P(i_1,i_2,i_3,i_6,i_7,i_8,i_9)}P(i4∗)=i1,i2,i3,i6,i7,i8,i9maxP(i1,i2,i3,i6,i7,i8,i9)i1,i2,i3,i4,i6,i7,i8,i9maxP(i1,i2,i3,i4,i6,i7,i8,i9)

下一节将介绍针对环结构概率图的处理方法——因子图。

相关参考：
概率统计学习笔记（2）：联合分布
机器学习-概率图模型11-推断Inference-Max Product（1）

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：Buff/Cache概念和清理方法

下一篇：计算机网络【IP协议与以太网】

机器学习笔记之概率图模型(九)最大乘积算法(Max-Product Algorithm)

机器学习笔记之概率图模型——最大乘积算法（Max-Product Algorithm）

引言