变分贝叶斯推断 (Variational Bayesian Inference)
-
核心问题与直觉:在贝叶斯统计中,我们对未知参数θ(例如,分布的均值、方差)有一个先验信念p(θ),并结合观测数据D,通过贝叶斯定理得到后验分布p(θ|D) = p(D|θ)p(θ) / p(D)。这个后验分布是我们进行所有推断的基础。然而,对于复杂的模型(如含有隐变量的模型),后验分布通常难以直接计算,因为分母的边缘似然p(D) = ∫ p(D|θ)p(θ) dθ 是一个高维、复杂的积分,常常没有解析解。变分贝叶斯(VB)的核心思想是:用一个简单的、已知形式的分布q(θ)去近似这个难以处理的后验p(θ|D),从而将复杂的积分问题转化为一个优化问题。
-
数学框架:KL散度与变分下界:如何衡量近似分布q(θ)与真实后验p(θ|D)的接近程度?我们使用Kullback-Leibler (KL) 散度,定义为 KL(q||p) = ∫ q(θ) log [q(θ)/p(θ|D)] dθ。KL散度越小,近似越精确。但由于KL散度本身包含p(θ|D),直接最小化它不可行。我们对KL散度进行变形:
KL(q||p) = ∫ q(θ) log [q(θ)/p(θ,D)] dθ + log p(D)。
这里p(θ,D) = p(D|θ)p(θ)是联合分布,通常可计算。移项后得到:
log p(D) = KL(q||p) + ∫ q(θ) log [p(θ,D)/q(θ)] dθ。
由于log p(D)是常数(称为证据),最小化KL(q||p)等价于最大化等号右边的第二项。我们定义这一项为证据下界,记作 L(q) = ∫ q(θ) log [p(θ,D)/q(θ)] dθ。这样,后验推断问题就转化为了一个优化问题:寻找一个分布q(θ),使得证据下界L(q)最大化。 -
平均场变分近似:为了实际求解,需要对近似分布q(θ)的形式进行假设。最常用的假设是平均场近似,即将参数θ分解为若干个互不相交的子集,并假设这些子集在近似后验中是相互独立的:q(θ) = ∏{j=1}^{M} q_j(θ_j)。这里的下标j表示参数子集(例如,均值参数和精度参数)。这个假设大大简化了优化问题。将平均场形式代入L(q),固定除q_k外的所有其他q{j≠k},可以推导出最优的q_k满足以下公式:
log q_k^*(θ_k) = 𝔼_{j≠k} [log p(θ, D)] + 常数。
其中,𝔼_{j≠k}表示对所有其他变量子集q_{j≠k}求期望。这个公式意味着,每个因子q_k的最优形式,由它在完整模型对数联合分布下,关于所有其他变量平均场分布的期望决定。 -
坐标上升迭代算法:由于每个q_k^*的表达式依赖于其他因子q_{j≠k},这形成了一个耦合的方程组。标准的求解方法是坐标上升法:我们随机初始化所有变分因子q_j,然后固定其中M-1个,更新剩下的那个以最大化L(q),如此循环往复。这个过程保证每次更新都会增加L(q),并最终收敛到一个局部最优解。这个迭代过程与EM算法在形式上相似,但VB同时估计了所有参数的不确定性(以分布的形式),而EM算法给出的是点估计。
-
在物理数据分析中的应用与实例:VB在物理领域广泛应用,尤其是在需要量化不确定性和处理复杂隐变量模型的场景。
- 宇宙学参数估计:从宇宙微波背景辐射(CMB)功率谱数据中,推断宇宙学模型(如ΛCDM)的参数(物质密度Ω_m,哈勃常数H_0等)。VB可以高效地提供这些参数的后验分布近似,量化其相关性和不确定性。
- 神经网络贝叶斯化:在物理信息神经网络(PINN)或用于粒子鉴别、事件分类的深度学习中,将神经网络的权重视为随机变量,用VB进行推断。这能得到贝叶斯神经网络,其预测自带不确定性估计,对于实验物理中评估结果的可靠性至关重要。
- 盲源分离与去噪:类似独立成分分析(ICA),但在贝叶斯框架下建模。假设观测信号是多个源信号的线性混合,并对源信号和混合矩阵都赋予先验分布。用VB可以同时推断源信号和混合矩阵的后验分布,并自动确定相关超参数(如噪声水平、源信号数量),常用于天体物理信号处理或引力波数据分析中的噪声分离。