news 2026/4/23 17:51:11

概率图模型入门：马尔可夫网络与贝叶斯网络的表示、推断与学习

张小明

前端开发工程师

1.2k 24

文章封面图 — 概率图模型入门：马尔可夫网络与贝叶斯网络的表示、推断与学习

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

第一章：引言——不确定世界中的结构化思维

我们生活在一个充满不确定性的世界里。从自然语言的理解、基因调控网络的解析，到金融市场的预测、推荐系统的构建，我们面对的系统通常涉及大量相互关联、且关系不确定的变量。如何简洁、清晰且可计算地表示这些复杂的依赖关系，并基于此进行有效的推理与预测，是现代人工智能与数据科学的核心挑战之一。

概率论为我们提供了量化不确定性的数学语言。然而，直接将所有变量的联合概率分布（如P(X1, X2, ..., Xn)）显式地表示出来，面临着“维度灾难”——对于n个二值变量，联合分布需要指定2^n - 1个参数，这在计算和统计上都是不可行的。

幸运的是，现实世界中的复杂关系往往具有局部性和稀疏性。一个变量通常只与少数几个其他变量直接相关。概率图模型正是利用了这一洞见，它将图论中直观的图形表示与概率论严谨的数学框架相结合，成为处理高维、结构化不确定性问题的强大工具。

概率图模型使用一个图G = (V, E)来表示变量间的依赖结构：

节点 (Vertices, V)：代表随机变量。
边 (Edges, E)：代表变量间的概率依赖关系。

根据边的类型，PGM主要分为两大类：

贝叶斯网络 (Bayesian Network, BN)：使用有向无环图表示变量间的因果关系或依赖关系。
马尔可夫网络 (Markov Network, MN) / 马尔可夫随机场 (Markov Random Field, MRF)：使用无向图表示变量间的相关关系或软约束关系。

本文将深入探讨这两类核心模型的表示（如何用图编码概率分布）、推断（如何基于已知变量查询未知变量的概率）和学习（如何从数据中自动获得图结构和参数）。它们是理解更复杂模型（如条件随机场、深度信念网络）的基石。

第二章：贝叶斯网络——有向的概率依赖模型

2.1 表示：图结构与参数化

一个贝叶斯网络B = (G, θ)由两部分构成：

有向无环图 (DAG)G：结构。
参数θ：条件概率分布。

图结构编码条件独立性。BN的核心语义是：给定其父节点，每个节点条件独立于其非后代节点。形式化地，BN定义的联合概率分布可因子化为：
P(X1, X2, ..., Xn) = Π_i P(X_i | Parents(X_i))

这就是著名的链式法则（有向图版本）。它极大地简化了联合分布的表示。例如，一个简单的“草地潮湿”网络包含变量：下雨 ®、洒水器开 (S)、草地湿 (W)。其DAG可能为 R -> W <- S（共同效应），R -> S（因果关系）。联合分布为：
P(R, S, W) = P(R) * P(S|R) * P(W|R, S)
只需指定P(R)(1个参数)，P(S|R)(2个参数，给定R下S的分布)，P(W|R,S)(4个参数，给定R,S下W的分布)，共7个参数，而非完整的2^3 -1 = 7个（此例巧合相等，变量越多，节省越显著）。

参数化：对于离散变量，P(X_i | Parents(X_i))通常表示为条件概率表。对于连续变量，则可以表示为线性高斯模型等。

图1：一个经典的贝叶斯网络示例（警报网络）。节点表示事件，有向边表示直接影响，CPT定义了局部条件概率。联合分布 P(B, E, A, J, M) = P(B)P(E)P(A|B,E)P(J|A)P(M|A)。

2.2 条件独立性：d-分离准则

如何从图结构判断任意两组变量 X 和 Y 在给定 Z 时是否条件独立？BN提供了系统的d-分离准则。

考虑图中 X 到 Y 的一条路径，如果该路径上的所有三元组节点都满足以下条件之一，则称该路径被节点集 Z阻塞：

顺序连接(X -> Z -> Y) 或分叉连接(X <- Z -> Y)：若 Z 被观测到，则路径阻塞。
汇合连接(X -> W <- Y)：若W 或其任一后代未被观测到，则路径阻塞；若 W 或其后代被观测到，则路径“激活”（信息可以流通）。

如果所有连接 X 和 Y 的路径都被 Z 阻塞，则称 X 和 Y 被 Zd-分离，即在给定 Z 时，X 与 Y 条件独立。

图2：d-分离的三种基本结构示意图。从左至右：顺序连接、分叉连接、汇合连接（V-结构）。图中展示了观测变量（阴影节点）如何阻塞或激活信息流。

2.3 典型模型与应用

朴素贝叶斯分类器：假设特征在给定类别下相互独立。其图结构为类别节点指向所有特征节点。
隐马尔可夫模型：动态贝叶斯网络的简单形式，用于时序数据建模（如语音识别、序列标注）。
医疗诊断系统：将症状、疾病、风险因素用DAG连接，进行诊断推理。
因果推理：在严格假设下，BN可以用于估计干预效应（do-calculus）。

第三章：马尔可夫网络——无向的关联模型

3.1 表示：图结构与参数化

马尔可夫网络M = (G, Φ)同样由两部分构成：

无向图G：结构。
势函数Φ：参数。

图结构编码马尔可夫性。MN的核心语义包括：

全局马尔可夫性：若节点集 A 和 B 在图中被节点集 S 分离（即所有A到B的路径都经过S），则给定 S 时，A 与 B 条件独立。
局部马尔可夫性：一个节点在给定其所有邻居节点时，条件独立于其余所有非邻居节点。

MN的联合概率分布不直接因子化为条件概率，而是表示为吉布斯分布的形式：
P(X1, X2, ..., Xn) = (1/Z) * Π_c ψ_c(X_c)

X_c：图中的一个团（完全子图，即团内所有节点两两相连）或极大团上的变量集合。
ψ_c(X_c) > 0：该团对应的势函数，衡量该团配置的“亲和度”或“能量”，值越大表示该配置越可能。
Z：配分函数，一个归一化常数，Z = Σ_{所有可能X} Π_c ψ_c(X_c)，确保所有概率之和为1。计算 Z 通常是推断中最困难的部分。

参数化：对于离散变量，势函数常表示为表格形式。更常用的是对数线性模型，其中势函数定义为指数函数：ψ_c(X_c) = exp(θ_c * f_c(X_c))，f_c是特征函数。此时联合分布为：
P(X) = (1/Z) * exp( Σ_c θ_c * f_c(X_c) ) = (1/Z) * exp( θ^T f(X) )
这种形式与统计物理学和机器学习中的许多模型（如最大熵模型）紧密相连。

图3：一个简单的马尔可夫网络示例（图像去噪或网格模型）。节点表示像素，边表示相邻像素间的关联。势函数鼓励相邻节点取值相同（同质先验）。

3.2 与贝叶斯网络的比较

特性	贝叶斯网络 (BN)	马尔可夫网络 (MN)
图类型	有向无环图 (DAG)	无向图 (UG)
核心语义	条件独立性（d-分离）	马尔可夫性（图分离）
参数化	局部条件概率分布 (CPD)	团势函数 (Potential Function)
因子化	`P(X)=Π_i P(X_i\|Pa_i)`	`P(X)∝Π_c ψ_c(X_c)`
归一化	局部CPD已归一化，联合分布自动归一化	需要全局配分函数 Z 进行归一化
表示能力	可以方便表示因果、诱导依赖（V-结构）	更擅长表示循环依赖、软约束
学习难度	结构学习相对容易（得分搜索）	结构学习较难（需估计Z）
典型应用	诊断、因果建模、序列模型	图像处理、空间统计、自然语言处理（词性标注）

转换：并非所有依赖结构都能同时用有向图和无向图完美表示。将有向图转换为无向图的过程称为道德化，主要步骤是：1) 将有向边变为无向边；2) 对于所有具有共同子节点的父节点对，在它们之间添加一条无向边（使其“结婚”，消除V-结构）。

3.3 典型模型与应用

伊辛模型：统计物理学的基础模型，用于研究磁性物质，是二值变量的网格状MN。
条件随机场：给定输入序列条件下，输出标签序列的马尔可夫网络，是序列标注（如命名实体识别）的首选模型。
图像分割与去噪：像素作为节点，相邻关系作为边，势函数编码颜色相似性和平滑性约束。
社交网络分析：用节点表示个体，边表示社会关系，势函数建模同质性等社会规律。

第四章：核心挑战之一：概率推断

定义了模型之后，核心任务之一是进行概率推断：在给定部分变量（证据变量 E）的观测值e后，计算其他变量（查询变量 Q）的后验概率分布P(Q | E = e)。常见的查询类型包括：

后验概率查询：计算P(Q_i | E=e)。
最大后验概率查询：找到最可能的变量赋值argmax_q P(Q=q | E=e)。

4.1 精确推断算法

精确推断是NP难的，但对于结构简单的图是可行的。

变量消元法：基本思想是，通过按特定顺序求和（消元）掉非查询变量，逐步计算边际概率。例如，计算P(X_n)：
P(X_n) = Σ_{x1} Σ_{x2} ... Σ_{xn-1} P(X1, X2, ..., Xn)
利用因子分解，将求和操作尽量向内推，只对涉及该变量的因子进行运算，避免枚举所有联合状态。
信念传播 / 和积算法：对于树状结构的图（无向树或多叉树），存在高效且精确的消息传递算法。
连接树算法：将任意图转化为一个连接树（或团树），使得树中节点是原图的团，并满足运行相交性质。然后在连接树上运行类似信念传播的算法，这是目前最通用和高效的精确推断框架。

图4：信念传播算法示意图。消息在树状网络上传递，每个节点整合来自其子树（或邻居）的消息，更新自身信念，并将新消息向上（或向其他方向）传递。

4.2 近似推断算法

对于大规模、稠密的图，精确推断不可行，必须使用近似方法。

蒙特卡洛方法：通过生成服从概率分布P(X | E=e)的样本来近似统计量。
- 重要性采样：从一个容易采样的建议分布中采样，并通过权重校正偏差。
- 马尔可夫链蒙特卡洛：构建一个马尔可夫链，使其平稳分布就是目标后验分布P(X | E=e)。然后运行该链，用产生的样本做估计。最著名的是吉布斯采样：依次对每个变量X_i，从其条件分布P(X_i | MB(X_i), E=e)中采样，其中MB(X_i)是X_i的马尔可夫毯（在BN中是父节点、子节点及子节点的父节点；在MN中是邻居节点）。经过“燃烧期”后，采样值近似来自联合后验分布。
变分推断：一种确定性近似方法。其核心思想是，用一个简单的、参数化的分布Q(X; θ)来近似复杂难解的后验分布P(X | E)。通过优化参数θ，最小化Q与P之间的散度（通常是KL散度KL(Q||P)）。这通常转化为一个优化问题。平均场近似是最常见的一种，假设Q可以完全因子化：Q(X) = Π_i Q_i(X_i)，然后通过坐标上升法迭代优化每个Q_i。

比较：MCMC在理论上能给出精确解（无限时间），但收敛慢且诊断难；变分推断计算快，提供了一个下界，但可能因假设太强而有偏。

第五章：核心挑战之二：模型学习

学习任务是从数据D（一组独立同分布的样本）中估计概率图模型的参数甚至结构。分为三类：

5.1 参数学习（已知结构）

已知图结构G，学习参数θ。

贝叶斯网络参数学习：
- 最大似然估计：对于离散变量和完整数据，MLE有封闭解。例如，CPT中P(X_i = k | Parents(X_i)=j)的MLE就是数据中对应配置出现的频率：θ_{ijk} = N_{ijk} / N_{ij}。
- 贝叶斯估计：引入狄利克雷先验（共轭先验），后验估计是计数加上先验伪计数，可以平滑MLE、避免过拟合和零概率问题。
马尔可夫网络参数学习：

5.2 结构学习（未知结构）

从数据中同时学习图结构G和参数θ。这是更具挑战性的任务。

基于约束的方法：通过统计检验（如卡方检验、互信息）判断变量间的条件独立性，然后试图找到一个图结构，使其蕴含的条件独立关系与数据中检验出的关系一致。例如，PC算法。这类方法对独立性检验非常敏感。
基于评分搜索的方法：定义一个评分函数score(G: D)，衡量图结构G对数据D的拟合好坏（平衡似然与模型复杂度），然后在图结构空间进行搜索，寻找得分最高的图。
- 评分函数：
  - 贝叶斯信息准则：BIC(G, D) = log P(D | θ_MLE, G) - (d/2) log N，其中d是参数个数，N是样本数。惩罚复杂模型。
  - 贝叶斯狄利克雷评分：基于参数的后验概率，有坚实的贝叶斯理论基础。
- 搜索策略：图结构空间是超大的离散空间。常用爬山法、贪婪搜索，从一个空图或随机图出发，通过增、删、反转单条边来寻找邻居中得分更高的图。更高级的用模拟退火、遗传算法。
马尔可夫网络的结构学习比贝叶斯网络更困难，因为评估一个无向结构的得分通常需要执行推断来计算似然，计算代价极高。近年来，基于L1正则化的稀疏学习方法（如Graphical Lasso，用于高斯图模型）取得了很大成功，它通过最大化带有L1惩罚的对数似然，可以同时得到稀疏的精度矩阵（即图结构）。

第六章：总结与展望

概率图模型以其优雅的框架，统一了概率论与图论，为我们提供了表示、推断和学习复杂概率关系的系统性工具。贝叶斯网络与马尔可夫网络，作为该领域的两大支柱，各有侧重，互为补充。

贝叶斯网络擅长表示非对称的因果关系和诱导依赖，其参数学习和结构学习相对成熟，在诊断、决策和因果分析中应用广泛。
马尔可夫网络擅长表示对称的关联和软约束，特别适合处理具有循环依赖和空间结构的问题，如图像分析和自然语言处理，但其推断和学习的计算挑战更大。

核心挑战与前沿方向：

可扩展的推断与学习：对于大规模、高维数据，开发更高效、更鲁棒的近似算法始终是核心。
深度学习与PGM的结合：深度神经网络具有强大的函数逼近和特征学习能力，但缺乏结构化概率语义。深度概率模型（如变分自编码器、生成对抗网络、深度信念网络、图神经网络）正试图融合二者的优势。
因果推断：贝叶斯网络是因果图模型的基础。将统计关联与因果干预区分开，是下一代人工智能系统需要具备的能力。
非参数化和灵活建模：传统的PGM假设参数形式固定，未来趋势是结合非参数贝叶斯方法，让数据本身决定模型的复杂度。

掌握概率图模型的基本原理，就如同获得了一套强大的“结构化思维”工具箱。它不仅能帮助你理解和构建复杂的机器学习系统，更能提升你在面对不确定性时进行严谨分析和推理的能力。从基础的朴素贝叶斯到前沿的深度生成模型，PGM的思想无处不在，是现代人工智能和数据科学工作者不可或缺的理论基石。

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/4/23 9:16:30

22、SNMP与跨平台Unix编程的Python实践

SNMP与跨平台Unix编程的Python实践 1. SNMP查询与工具创建在进行SNMP查询时，我们可以获取设备的系统描述信息，例如对IP地址为 10.0.1.20 进行查询： Running snmp query for: 10.0.1.20sysDescr = None ( None ) 10.0.1.20 returns (Linux localhost.localdomain 2.6…

作者头像

李华

网站建设 2026/4/23 9:19:19

高效处理数据的ProcessX方法

ProcessX数据处理方法ProcessX数据处理涉及多种技术和工具，适用于不同场景的数据清洗、转换和分析需求。以下是几种常见的处理方法：数据清洗与预处理使用Python的Pandas库可以高效处理缺失值、重复数据和异常值。例如，df.dropna()删除缺失值…

作者头像

李华

网站建设 2026/4/23 9:17:42

38、Python编程：回调函数、数据处理与系统管理全解析

Python编程：回调函数、数据处理与系统管理全解析 1. 回调函数基础回调函数和传递函数的概念可能对许多人来说比较陌生，但深入了解它是很有价值的。在Python中，函数是“一等公民”，这意味着可以像操作对象一样传递和处理函数。 1.1 函数作为一等公民以下代码展示了函数…

作者头像

李华

网站建设 2026/4/23 12:10:17

FIO工具Windows终极指南：一键下载安装完整教程

FIO工具Windows终极指南：一键下载安装完整教程【免费下载链接】FIO工具最新版Windows版本下载 FIO工具最新版Windows版本现已发布，专为Windows平台优化，提供高效、稳定的性能体验。本资源包含最新版FIO工具的安装包，支持64位系统…

作者头像

李华

网站建设 2026/4/23 10:44:48

5大关键技术解析：构建金融级容灾系统的完整指南

在数字化金融时代，金融容灾和云计算备份技术已成为保障业务连续性的核心支撑。随着金融业务对系统可用性要求的不断提升，构建高效可靠的容灾体系成为每个金融机构的技术必修课。本文将深度解析金融信息系统容灾备份的关键技术实现路径。【免费下载链接】…

作者头像

李华

网站建设 2026/4/23 12:10:43

18、树莓派户外应用与防水及寻宝功能实现

树莓派户外应用与防水及寻宝功能实现 1. 利用脚本上传温湿度数据到 Google Docs 要使用脚本将植物的湿度和温度数据上传到 Google Docs，需要先使用自己的 Google Docs 账户详细信息对脚本进行配置。具体操作步骤如下： 1. 用喜欢的文本编辑器打开 Adafruit_DHT_googledocs…

作者头像

李华