点击“AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力,沉浸式云原生集成开发环境,80G大显存多卡并行,按量弹性计费,教育用户更享超低价。
第一章:引言——不确定世界中的结构化思维
我们生活在一个充满不确定性的世界里。从自然语言的理解、基因调控网络的解析,到金融市场的预测、推荐系统的构建,我们面对的系统通常涉及大量相互关联、且关系不确定的变量。如何简洁、清晰且可计算地表示这些复杂的依赖关系,并基于此进行有效的推理与预测,是现代人工智能与数据科学的核心挑战之一。
概率论为我们提供了量化不确定性的数学语言。然而,直接将所有变量的联合概率分布(如P(X1, X2, ..., Xn))显式地表示出来,面临着“维度灾难”——对于n个二值变量,联合分布需要指定2^n - 1个参数,这在计算和统计上都是不可行的。
幸运的是,现实世界中的复杂关系往往具有局部性和稀疏性。一个变量通常只与少数几个其他变量直接相关。概率图模型正是利用了这一洞见,它将图论中直观的图形表示与概率论严谨的数学框架相结合,成为处理高维、结构化不确定性问题的强大工具。
概率图模型使用一个图G = (V, E)来表示变量间的依赖结构:
- 节点 (Vertices, V):代表随机变量。
- 边 (Edges, E):代表变量间的概率依赖关系。
根据边的类型,PGM主要分为两大类:
- 贝叶斯网络 (Bayesian Network, BN):使用有向无环图表示变量间的因果关系或依赖关系。
- 马尔可夫网络 (Markov Network, MN) / 马尔可夫随机场 (Markov Random Field, MRF):使用无向图表示变量间的相关关系或软约束关系。
本文将深入探讨这两类核心模型的表示(如何用图编码概率分布)、推断(如何基于已知变量查询未知变量的概率)和学习(如何从数据中自动获得图结构和参数)。它们是理解更复杂模型(如条件随机场、深度信念网络)的基石。
第二章:贝叶斯网络——有向的概率依赖模型
2.1 表示:图结构与参数化
一个贝叶斯网络B = (G, θ)由两部分构成:
- 有向无环图 (DAG)
G: 结构。 - 参数
θ: 条件概率分布。
图结构编码条件独立性。BN的核心语义是:给定其父节点,每个节点条件独立于其非后代节点。形式化地,BN定义的联合概率分布可因子化为:P(X1, X2, ..., Xn) = Π_i P(X_i | Parents(X_i))
这就是著名的链式法则(有向图版本)。它极大地简化了联合分布的表示。例如,一个简单的“草地潮湿”网络包含变量:下雨 ®、洒水器开 (S)、草地湿 (W)。其DAG可能为 R -> W <- S(共同效应),R -> S(因果关系)。联合分布为:P(R, S, W) = P(R) * P(S|R) * P(W|R, S)
只需指定P(R)(1个参数),P(S|R)(2个参数,给定R下S的分布),P(W|R,S)(4个参数,给定R,S下W的分布),共7个参数,而非完整的2^3 -1 = 7个(此例巧合相等,变量越多,节省越显著)。
参数化:对于离散变量,P(X_i | Parents(X_i))通常表示为条件概率表。对于连续变量,则可以表示为线性高斯模型等。
图1:一个经典的贝叶斯网络示例(警报网络)。节点表示事件,有向边表示直接影响,CPT定义了局部条件概率。联合分布 P(B, E, A, J, M) = P(B)P(E)P(A|B,E)P(J|A)P(M|A)。
2.2 条件独立性:d-分离准则
如何从图结构判断任意两组变量 X 和 Y 在给定 Z 时是否条件独立?BN提供了系统的d-分离准则。
考虑图中 X 到 Y 的一条路径,如果该路径上的所有三元组节点都满足以下条件之一,则称该路径被节点集 Z阻塞:
- 顺序连接(X -> Z -> Y) 或分叉连接(X <- Z -> Y):若 Z 被观测到,则路径阻塞。
- 汇合连接(X -> W <- Y):若W 或其任一后代未被观测到,则路径阻塞;若 W 或其后代被观测到,则路径“激活”(信息可以流通)。
如果所有连接 X 和 Y 的路径都被 Z 阻塞,则称 X 和 Y 被 Zd-分离,即在给定 Z 时,X 与 Y 条件独立。
图2:d-分离的三种基本结构示意图。从左至右:顺序连接、分叉连接、汇合连接(V-结构)。图中展示了观测变量(阴影节点)如何阻塞或激活信息流。
2.3 典型模型与应用
- 朴素贝叶斯分类器:假设特征在给定类别下相互独立。其图结构为类别节点指向所有特征节点。
- 隐马尔可夫模型:动态贝叶斯网络的简单形式,用于时序数据建模(如语音识别、序列标注)。
- 医疗诊断系统:将症状、疾病、风险因素用DAG连接,进行诊断推理。
- 因果推理:在严格假设下,BN可以用于估计干预效应(do-calculus)。
第三章:马尔可夫网络——无向的关联模型
3.1 表示:图结构与参数化
马尔可夫网络M = (G, Φ)同样由两部分构成:
- 无向图
G: 结构。 - 势函数
Φ: 参数。
图结构编码马尔可夫性。MN的核心语义包括:
- 全局马尔可夫性: 若节点集 A 和 B 在图中被节点集 S 分离(即所有A到B的路径都经过S),则给定 S 时,A 与 B 条件独立。
- 局部马尔可夫性: 一个节点在给定其所有邻居节点时,条件独立于其余所有非邻居节点。
MN的联合概率分布不直接因子化为条件概率,而是表示为吉布斯分布的形式:P(X1, X2, ..., Xn) = (1/Z) * Π_c ψ_c(X_c)
其中:
X_c: 图中的一个团(完全子图,即团内所有节点两两相连)或极大团上的变量集合。ψ_c(X_c) > 0: 该团对应的势函数,衡量该团配置的“亲和度”或“能量”,值越大表示该配置越可能。Z:配分函数,一个归一化常数,Z = Σ_{所有可能X} Π_c ψ_c(X_c),确保所有概率之和为1。计算 Z 通常是推断中最困难的部分。
参数化:对于离散变量,势函数常表示为表格形式。更常用的是对数线性模型,其中势函数定义为指数函数:ψ_c(X_c) = exp(θ_c * f_c(X_c)),f_c是特征函数。此时联合分布为:P(X) = (1/Z) * exp( Σ_c θ_c * f_c(X_c) ) = (1/Z) * exp( θ^T f(X) )
这种形式与统计物理学和机器学习中的许多模型(如最大熵模型)紧密相连。
图3:一个简单的马尔可夫网络示例(图像去噪或网格模型)。节点表示像素,边表示相邻像素间的关联。势函数鼓励相邻节点取值相同(同质先验)。
3.2 与贝叶斯网络的比较
| 特性 | 贝叶斯网络 (BN) | 马尔可夫网络 (MN) |
|---|---|---|
| 图类型 | 有向无环图 (DAG) | 无向图 (UG) |
| 核心语义 | 条件独立性(d-分离) | 马尔可夫性(图分离) |
| 参数化 | 局部条件概率分布 (CPD) | 团势函数 (Potential Function) |
| 因子化 | P(X)=Π_i P(X_i|Pa_i) | P(X)∝Π_c ψ_c(X_c) |
| 归一化 | 局部CPD已归一化,联合分布自动归一化 | 需要全局配分函数 Z 进行归一化 |
| 表示能力 | 可以方便表示因果、诱导依赖(V-结构) | 更擅长表示循环依赖、软约束 |
| 学习难度 | 结构学习相对容易(得分搜索) | 结构学习较难(需估计Z) |
| 典型应用 | 诊断、因果建模、序列模型 | 图像处理、空间统计、自然语言处理(词性标注) |
转换:并非所有依赖结构都能同时用有向图和无向图完美表示。将有向图转换为无向图的过程称为道德化,主要步骤是:1) 将有向边变为无向边;2) 对于所有具有共同子节点的父节点对,在它们之间添加一条无向边(使其“结婚”,消除V-结构)。
3.3 典型模型与应用
- 伊辛模型:统计物理学的基础模型,用于研究磁性物质,是二值变量的网格状MN。
- 条件随机场:给定输入序列条件下,输出标签序列的马尔可夫网络,是序列标注(如命名实体识别)的首选模型。
- 图像分割与去噪:像素作为节点,相邻关系作为边,势函数编码颜色相似性和平滑性约束。
- 社交网络分析:用节点表示个体,边表示社会关系,势函数建模同质性等社会规律。
第四章:核心挑战之一:概率推断
定义了模型之后,核心任务之一是进行概率推断:在给定部分变量(证据变量 E)的观测值e后,计算其他变量(查询变量 Q)的后验概率分布P(Q | E = e)。常见的查询类型包括:
- 后验概率查询:计算
P(Q_i | E=e)。 - 最大后验概率查询:找到最可能的变量赋值
argmax_q P(Q=q | E=e)。
4.1 精确推断算法
精确推断是NP难的,但对于结构简单的图是可行的。
变量消元法:基本思想是,通过按特定顺序求和(消元)掉非查询变量,逐步计算边际概率。例如,计算
P(X_n):P(X_n) = Σ_{x1} Σ_{x2} ... Σ_{xn-1} P(X1, X2, ..., Xn)
利用因子分解,将求和操作尽量向内推,只对涉及该变量的因子进行运算,避免枚举所有联合状态。信念传播 / 和积算法:对于树状结构的图(无向树或多叉树),存在高效且精确的消息传递算法。
- 思想:每个节点根据其邻居传来的消息,计算自身的边缘信念(后验),并将新的消息传递给其他邻居。
- 消息公式(对于无向树):
m_{i->j}(x_j) = Σ_{x_i} ( ψ(x_i, x_j) * Π_{k∈N(i)\j} m_{k->i}(x_i) )
其中m_{i->j}是从节点 i 发送给节点 j 的消息,N(i)是 i 的邻居集合。 - 收敛与结果:经过两轮(叶子到根,根到叶子)传播后,每个节点的边缘信念为:
b(x_i) ∝ Π_{k∈N(i)} m_{k->i}(x_i) - 对于有向树和Polytree,算法需稍作修改,但核心思想一致。
连接树算法:将任意图转化为一个连接树(或团树),使得树中节点是原图的团,并满足运行相交性质。然后在连接树上运行类似信念传播的算法,这是目前最通用和高效的精确推断框架。
图4:信念传播算法示意图。消息在树状网络上传递,每个节点整合来自其子树(或邻居)的消息,更新自身信念,并将新消息向上(或向其他方向)传递。
4.2 近似推断算法
对于大规模、稠密的图,精确推断不可行,必须使用近似方法。
蒙特卡洛方法:通过生成服从概率分布
P(X | E=e)的样本来近似统计量。- 重要性采样:从一个容易采样的建议分布中采样,并通过权重校正偏差。
- 马尔可夫链蒙特卡洛:构建一个马尔可夫链,使其平稳分布就是目标后验分布
P(X | E=e)。然后运行该链,用产生的样本做估计。最著名的是吉布斯采样:依次对每个变量X_i,从其条件分布P(X_i | MB(X_i), E=e)中采样,其中MB(X_i)是X_i的马尔可夫毯(在BN中是父节点、子节点及子节点的父节点;在MN中是邻居节点)。经过“燃烧期”后,采样值近似来自联合后验分布。
变分推断:一种确定性近似方法。其核心思想是,用一个简单的、参数化的分布
Q(X; θ)来近似复杂难解的后验分布P(X | E)。通过优化参数θ,最小化Q与P之间的散度(通常是KL散度KL(Q||P))。这通常转化为一个优化问题。平均场近似是最常见的一种,假设Q可以完全因子化:Q(X) = Π_i Q_i(X_i),然后通过坐标上升法迭代优化每个Q_i。
比较:MCMC在理论上能给出精确解(无限时间),但收敛慢且诊断难;变分推断计算快,提供了一个下界,但可能因假设太强而有偏。
第五章:核心挑战之二:模型学习
学习任务是从数据D(一组独立同分布的样本)中估计概率图模型的参数甚至结构。分为三类:
5.1 参数学习(已知结构)
已知图结构G,学习参数θ。
贝叶斯网络参数学习:
- 最大似然估计:对于离散变量和完整数据,MLE有封闭解。例如,CPT中
P(X_i = k | Parents(X_i)=j)的MLE就是数据中对应配置出现的频率:θ_{ijk} = N_{ijk} / N_{ij}。 - 贝叶斯估计:引入狄利克雷先验(共轭先验),后验估计是计数加上先验伪计数,可以平滑MLE、避免过拟合和零概率问题。
- 最大似然估计:对于离散变量和完整数据,MLE有封闭解。例如,CPT中
马尔可夫网络参数学习:
- 由于配分函数
Z(θ)的存在,似然函数P(D; θ)是θ的复杂函数,MLE没有封闭解。 - 常用方法是最大似然估计的梯度方法。对数似然
L(θ) = Σ_d θ^T f(x_d) - N log Z(θ)。梯度为:∇L(θ) = Σ_d f(x_d) - N * E_{P(X;θ)}[f(X)]
梯度下降需要计算模型期望E_{P(X;θ)}[f(X)],这本身就需要推断(如用MCMC采样),使得学习过程(内层推断,外层优化)计算量很大。 - 伪似然是一个流行的替代方案,它最大化每个变量在其邻居条件下的条件概率乘积,规避了
Z(θ)的计算。
- 由于配分函数
5.2 结构学习(未知结构)
从数据中同时学习图结构G和参数θ。这是更具挑战性的任务。
基于约束的方法:通过统计检验(如卡方检验、互信息)判断变量间的条件独立性,然后试图找到一个图结构,使其蕴含的条件独立关系与数据中检验出的关系一致。例如,PC算法。这类方法对独立性检验非常敏感。
基于评分搜索的方法:定义一个评分函数
score(G: D),衡量图结构G对数据D的拟合好坏(平衡似然与模型复杂度),然后在图结构空间进行搜索,寻找得分最高的图。- 评分函数:
- 贝叶斯信息准则:
BIC(G, D) = log P(D | θ_MLE, G) - (d/2) log N,其中d是参数个数,N是样本数。惩罚复杂模型。 - 贝叶斯狄利克雷评分:基于参数的后验概率,有坚实的贝叶斯理论基础。
- 贝叶斯信息准则:
- 搜索策略:图结构空间是超大的离散空间。常用爬山法、贪婪搜索,从一个空图或随机图出发,通过增、删、反转单条边来寻找邻居中得分更高的图。更高级的用模拟退火、遗传算法。
- 评分函数:
马尔可夫网络的结构学习比贝叶斯网络更困难,因为评估一个无向结构的得分通常需要执行推断来计算似然,计算代价极高。近年来,基于
L1正则化的稀疏学习方法(如Graphical Lasso, 用于高斯图模型)取得了很大成功,它通过最大化带有L1惩罚的对数似然,可以同时得到稀疏的精度矩阵(即图结构)。
第六章:总结与展望
概率图模型以其优雅的框架,统一了概率论与图论,为我们提供了表示、推断和学习复杂概率关系的系统性工具。贝叶斯网络与马尔可夫网络,作为该领域的两大支柱,各有侧重,互为补充。
- 贝叶斯网络擅长表示非对称的因果关系和诱导依赖,其参数学习和结构学习相对成熟,在诊断、决策和因果分析中应用广泛。
- 马尔可夫网络擅长表示对称的关联和软约束,特别适合处理具有循环依赖和空间结构的问题,如图像分析和自然语言处理,但其推断和学习的计算挑战更大。
核心挑战与前沿方向:
- 可扩展的推断与学习:对于大规模、高维数据,开发更高效、更鲁棒的近似算法始终是核心。
- 深度学习与PGM的结合:深度神经网络具有强大的函数逼近和特征学习能力,但缺乏结构化概率语义。深度概率模型(如变分自编码器、生成对抗网络、深度信念网络、图神经网络)正试图融合二者的优势。
- 因果推断:贝叶斯网络是因果图模型的基础。将统计关联与因果干预区分开,是下一代人工智能系统需要具备的能力。
- 非参数化和灵活建模:传统的PGM假设参数形式固定,未来趋势是结合非参数贝叶斯方法,让数据本身决定模型的复杂度。
掌握概率图模型的基本原理,就如同获得了一套强大的“结构化思维”工具箱。它不仅能帮助你理解和构建复杂的机器学习系统,更能提升你在面对不确定性时进行严谨分析和推理的能力。从基础的朴素贝叶斯到前沿的深度生成模型,PGM的思想无处不在,是现代人工智能和数据科学工作者不可或缺的理论基石。