变分贝叶斯推断 (Variational Bayesian Inference)

字数 1784 2025-12-15 16:08:32

变分贝叶斯推断 (Variational Bayesian Inference)

核心问题与直觉：在贝叶斯统计中，我们对未知参数θ（例如，分布的均值、方差）有一个先验信念p(θ)，并结合观测数据D，通过贝叶斯定理得到后验分布p(θ|D) = p(D|θ)p(θ) / p(D)。这个后验分布是我们进行所有推断的基础。然而，对于复杂的模型（如含有隐变量的模型），后验分布通常难以直接计算，因为分母的边缘似然p(D) = ∫ p(D|θ)p(θ) dθ 是一个高维、复杂的积分，常常没有解析解。变分贝叶斯（VB）的核心思想是：用一个简单的、已知形式的分布q(θ)去近似这个难以处理的后验p(θ|D)，从而将复杂的积分问题转化为一个优化问题。
数学框架：KL散度与变分下界：如何衡量近似分布q(θ)与真实后验p(θ|D)的接近程度？我们使用Kullback-Leibler (KL) 散度，定义为 KL(q||p) = ∫ q(θ) log [q(θ)/p(θ|D)] dθ。KL散度越小，近似越精确。但由于KL散度本身包含p(θ|D)，直接最小化它不可行。我们对KL散度进行变形：
KL(q||p) = ∫ q(θ) log [q(θ)/p(θ,D)] dθ + log p(D)。
这里p(θ,D) = p(D|θ)p(θ)是联合分布，通常可计算。移项后得到：
log p(D) = KL(q||p) + ∫ q(θ) log [p(θ,D)/q(θ)] dθ。
由于log p(D)是常数（称为证据），最小化KL(q||p)等价于最大化等号右边的第二项。我们定义这一项为证据下界，记作 L(q) = ∫ q(θ) log [p(θ,D)/q(θ)] dθ。这样，后验推断问题就转化为了一个优化问题：寻找一个分布q(θ)，使得证据下界L(q)最大化。
平均场变分近似：为了实际求解，需要对近似分布q(θ)的形式进行假设。最常用的假设是平均场近似，即将参数θ分解为若干个互不相交的子集，并假设这些子集在近似后验中是相互独立的：q(θ) = ∏{j=1}^{M} q_j(θ_j)。这里的下标j表示参数子集（例如，均值参数和精度参数）。这个假设大大简化了优化问题。将平均场形式代入L(q)，固定除q_k外的所有其他q{j≠k}，可以推导出最优的q_k满足以下公式：
log q_k^*(θ_k) = 𝔼_{j≠k} [log p(θ, D)] + 常数。
其中，𝔼_{j≠k}表示对所有其他变量子集q_{j≠k}求期望。这个公式意味着，每个因子q_k的最优形式，由它在完整模型对数联合分布下，关于所有其他变量平均场分布的期望决定。
坐标上升迭代算法：由于每个q_k^*的表达式依赖于其他因子q_{j≠k}，这形成了一个耦合的方程组。标准的求解方法是坐标上升法：我们随机初始化所有变分因子q_j，然后固定其中M-1个，更新剩下的那个以最大化L(q)，如此循环往复。这个过程保证每次更新都会增加L(q)，并最终收敛到一个局部最优解。这个迭代过程与EM算法在形式上相似，但VB同时估计了所有参数的不确定性（以分布的形式），而EM算法给出的是点估计。
在物理数据分析中的应用与实例：VB在物理领域广泛应用，尤其是在需要量化不确定性和处理复杂隐变量模型的场景。
- 宇宙学参数估计：从宇宙微波背景辐射（CMB）功率谱数据中，推断宇宙学模型（如ΛCDM）的参数（物质密度Ω_m，哈勃常数H_0等）。VB可以高效地提供这些参数的后验分布近似，量化其相关性和不确定性。
- 神经网络贝叶斯化：在物理信息神经网络（PINN）或用于粒子鉴别、事件分类的深度学习中，将神经网络的权重视为随机变量，用VB进行推断。这能得到贝叶斯神经网络，其预测自带不确定性估计，对于实验物理中评估结果的可靠性至关重要。
- 盲源分离与去噪：类似独立成分分析（ICA），但在贝叶斯框架下建模。假设观测信号是多个源信号的线性混合，并对源信号和混合矩阵都赋予先验分布。用VB可以同时推断源信号和混合矩阵的后验分布，并自动确定相关超参数（如噪声水平、源信号数量），常用于天体物理信号处理或引力波数据分析中的噪声分离。

变分贝叶斯推断 (Variational Bayesian Inference) 核心问题与直觉：在贝叶斯统计中，我们对未知参数θ（例如，分布的均值、方差）有一个先验信念p(θ)，并结合观测数据D，通过贝叶斯定理得到后验分布p(θ|D) = p(D|θ)p(θ) / p(D)。这个后验分布是我们进行所有推断的基础。然而，对于复杂的模型（如含有隐变量的模型），后验分布通常难以直接计算，因为分母的边缘似然p(D) = ∫ p(D|θ)p(θ) dθ 是一个高维、复杂的积分，常常没有解析解。变分贝叶斯（VB）的核心思想是：用一个简单的、已知形式的分布q(θ)去近似这个难以处理的后验p(θ|D) ，从而将复杂的积分问题转化为一个优化问题。数学框架：KL散度与变分下界：如何衡量近似分布q(θ)与真实后验p(θ|D)的接近程度？我们使用 Kullback-Leibler (KL) 散度，定义为 KL(q||p) = ∫ q(θ) log [ q(θ)/p(θ|D) ] dθ。KL散度越小，近似越精确。但由于KL散度本身包含p(θ|D)，直接最小化它不可行。我们对KL散度进行变形： KL(q||p) = ∫ q(θ) log [ q(θ)/p(θ,D) ] dθ + log p(D)。这里p(θ,D) = p(D|θ)p(θ)是联合分布，通常可计算。移项后得到： log p(D) = KL(q||p) + ∫ q(θ) log [ p(θ,D)/q(θ) ] dθ。由于log p(D)是常数（称为证据），最小化KL(q||p)等价于最大化等号右边的第二项。我们定义这一项为证据下界，记作 L(q) = ∫ q(θ) log [ p(θ,D)/q(θ)] dθ。这样，后验推断问题就转化为了一个优化问题：寻找一个分布q(θ)，使得证据下界L(q)最大化。平均场变分近似：为了实际求解，需要对近似分布q(θ)的形式进行假设。最常用的假设是平均场近似，即将参数θ分解为若干个互不相交的子集，并假设这些子集在近似后验中是相互独立的：q(θ) = ∏ {j=1}^{M} q_ j(θ_ j)。这里的下标j表示参数子集（例如，均值参数和精度参数）。这个假设大大简化了优化问题。将平均场形式代入L(q)，固定除q_ k外的所有其他q {j≠k}，可以推导出最优的q_ k满足以下公式： log q_ k^* (θ_ k) = 𝔼_ {j≠k} [ log p(θ, D) ] + 常数。其中，𝔼_ {j≠k}表示对所有其他变量子集q_ {j≠k}求期望。这个公式意味着，每个因子q_ k的最优形式，由它在完整模型对数联合分布下，关于所有其他变量平均场分布的期望决定。坐标上升迭代算法：由于每个q_ k^* 的表达式依赖于其他因子q_ {j≠k}，这形成了一个耦合的方程组。标准的求解方法是坐标上升法：我们随机初始化所有变分因子q_ j，然后固定其中M-1个，更新剩下的那个以最大化L(q)，如此循环往复。这个过程保证每次更新都会增加L(q)，并最终收敛到一个局部最优解。这个迭代过程与EM算法在形式上相似，但VB同时估计了所有参数的不确定性（以分布的形式），而EM算法给出的是点估计。在物理数据分析中的应用与实例：VB在物理领域广泛应用，尤其是在需要量化不确定性和处理复杂隐变量模型的场景。宇宙学参数估计：从宇宙微波背景辐射（CMB）功率谱数据中，推断宇宙学模型（如ΛCDM）的参数（物质密度Ω_ m，哈勃常数H_ 0等）。VB可以高效地提供这些参数的后验分布近似，量化其相关性和不确定性。神经网络贝叶斯化：在物理信息神经网络（PINN）或用于粒子鉴别、事件分类的深度学习中，将神经网络的权重视为随机变量，用VB进行推断。这能得到贝叶斯神经网络，其预测自带不确定性估计，对于实验物理中评估结果的可靠性至关重要。盲源分离与去噪：类似独立成分分析（ICA），但在贝叶斯框架下建模。假设观测信号是多个源信号的线性混合，并对源信号和混合矩阵都赋予先验分布。用VB可以同时推断源信号和混合矩阵的后验分布，并自动确定相关超参数（如噪声水平、源信号数量），常用于天体物理信号处理或引力波数据分析中的噪声分离。