变分贝叶斯推断 (Variational Bayesian Inference)
字数 1784 2025-12-15 16:08:32

变分贝叶斯推断 (Variational Bayesian Inference)

  1. 核心问题与直觉:在贝叶斯统计中,我们对未知参数θ(例如,分布的均值、方差)有一个先验信念p(θ),并结合观测数据D,通过贝叶斯定理得到后验分布p(θ|D) = p(D|θ)p(θ) / p(D)。这个后验分布是我们进行所有推断的基础。然而,对于复杂的模型(如含有隐变量的模型),后验分布通常难以直接计算,因为分母的边缘似然p(D) = ∫ p(D|θ)p(θ) dθ 是一个高维、复杂的积分,常常没有解析解。变分贝叶斯(VB)的核心思想是:用一个简单的、已知形式的分布q(θ)去近似这个难以处理的后验p(θ|D),从而将复杂的积分问题转化为一个优化问题。

  2. 数学框架:KL散度与变分下界:如何衡量近似分布q(θ)与真实后验p(θ|D)的接近程度?我们使用Kullback-Leibler (KL) 散度,定义为 KL(q||p) = ∫ q(θ) log [q(θ)/p(θ|D)] dθ。KL散度越小,近似越精确。但由于KL散度本身包含p(θ|D),直接最小化它不可行。我们对KL散度进行变形:
    KL(q||p) = ∫ q(θ) log [q(θ)/p(θ,D)] dθ + log p(D)。
    这里p(θ,D) = p(D|θ)p(θ)是联合分布,通常可计算。移项后得到:
    log p(D) = KL(q||p) + ∫ q(θ) log [p(θ,D)/q(θ)] dθ。
    由于log p(D)是常数(称为证据),最小化KL(q||p)等价于最大化等号右边的第二项。我们定义这一项为证据下界,记作 L(q) = ∫ q(θ) log [p(θ,D)/q(θ)] dθ。这样,后验推断问题就转化为了一个优化问题:寻找一个分布q(θ),使得证据下界L(q)最大化

  3. 平均场变分近似:为了实际求解,需要对近似分布q(θ)的形式进行假设。最常用的假设是平均场近似,即将参数θ分解为若干个互不相交的子集,并假设这些子集在近似后验中是相互独立的:q(θ) = ∏{j=1}^{M} q_j(θ_j)。这里的下标j表示参数子集(例如,均值参数和精度参数)。这个假设大大简化了优化问题。将平均场形式代入L(q),固定除q_k外的所有其他q{j≠k},可以推导出最优的q_k满足以下公式:
    log q_k^*(θ_k) = 𝔼_{j≠k} [log p(θ, D)] + 常数。
    其中,𝔼_{j≠k}表示对所有其他变量子集q_{j≠k}求期望。这个公式意味着,每个因子q_k的最优形式,由它在完整模型对数联合分布下,关于所有其他变量平均场分布的期望决定

  4. 坐标上升迭代算法:由于每个q_k^*的表达式依赖于其他因子q_{j≠k},这形成了一个耦合的方程组。标准的求解方法是坐标上升法:我们随机初始化所有变分因子q_j,然后固定其中M-1个,更新剩下的那个以最大化L(q),如此循环往复。这个过程保证每次更新都会增加L(q),并最终收敛到一个局部最优解。这个迭代过程与EM算法在形式上相似,但VB同时估计了所有参数的不确定性(以分布的形式),而EM算法给出的是点估计。

  5. 在物理数据分析中的应用与实例:VB在物理领域广泛应用,尤其是在需要量化不确定性和处理复杂隐变量模型的场景。

    • 宇宙学参数估计:从宇宙微波背景辐射(CMB)功率谱数据中,推断宇宙学模型(如ΛCDM)的参数(物质密度Ω_m,哈勃常数H_0等)。VB可以高效地提供这些参数的后验分布近似,量化其相关性和不确定性。
    • 神经网络贝叶斯化:在物理信息神经网络(PINN)或用于粒子鉴别、事件分类的深度学习中,将神经网络的权重视为随机变量,用VB进行推断。这能得到贝叶斯神经网络,其预测自带不确定性估计,对于实验物理中评估结果的可靠性至关重要。
    • 盲源分离与去噪:类似独立成分分析(ICA),但在贝叶斯框架下建模。假设观测信号是多个源信号的线性混合,并对源信号和混合矩阵都赋予先验分布。用VB可以同时推断源信号和混合矩阵的后验分布,并自动确定相关超参数(如噪声水平、源信号数量),常用于天体物理信号处理或引力波数据分析中的噪声分离。
变分贝叶斯推断 (Variational Bayesian Inference) 核心问题与直觉 :在贝叶斯统计中,我们对未知参数θ(例如,分布的均值、方差)有一个先验信念p(θ),并结合观测数据D,通过贝叶斯定理得到后验分布p(θ|D) = p(D|θ)p(θ) / p(D)。这个后验分布是我们进行所有推断的基础。然而,对于复杂的模型(如含有隐变量的模型),后验分布通常 难以直接计算 ,因为分母的边缘似然p(D) = ∫ p(D|θ)p(θ) dθ 是一个高维、复杂的积分,常常没有解析解。变分贝叶斯(VB)的核心思想是: 用一个简单的、已知形式的分布q(θ)去近似这个难以处理的后验p(θ|D) ,从而将复杂的积分问题转化为一个优化问题。 数学框架:KL散度与变分下界 :如何衡量近似分布q(θ)与真实后验p(θ|D)的接近程度?我们使用 Kullback-Leibler (KL) 散度 ,定义为 KL(q||p) = ∫ q(θ) log [ q(θ)/p(θ|D) ] dθ。KL散度越小,近似越精确。但由于KL散度本身包含p(θ|D),直接最小化它不可行。我们对KL散度进行变形: KL(q||p) = ∫ q(θ) log [ q(θ)/p(θ,D) ] dθ + log p(D)。 这里p(θ,D) = p(D|θ)p(θ)是联合分布,通常可计算。移项后得到: log p(D) = KL(q||p) + ∫ q(θ) log [ p(θ,D)/q(θ) ] dθ。 由于log p(D)是常数(称为证据),最小化KL(q||p)等价于 最大化 等号右边的第二项。我们定义这一项为 证据下界 ,记作 L(q) = ∫ q(θ) log [ p(θ,D)/q(θ)] dθ。这样, 后验推断问题就转化为了一个优化问题:寻找一个分布q(θ),使得证据下界L(q)最大化 。 平均场变分近似 :为了实际求解,需要对近似分布q(θ)的形式进行假设。最常用的假设是 平均场 近似,即将参数θ分解为若干个互不相交的子集,并假设这些子集在近似后验中是相互独立的:q(θ) = ∏ {j=1}^{M} q_ j(θ_ j)。这里的下标j表示参数子集(例如,均值参数和精度参数)。这个假设大大简化了优化问题。将平均场形式代入L(q),固定除q_ k外的所有其他q {j≠k},可以推导出最优的q_ k满足以下公式: log q_ k^* (θ_ k) = 𝔼_ {j≠k} [ log p(θ, D) ] + 常数。 其中,𝔼_ {j≠k}表示对所有其他变量子集q_ {j≠k}求期望。这个公式意味着, 每个因子q_ k的最优形式,由它在完整模型对数联合分布下,关于所有其他变量平均场分布的期望决定 。 坐标上升迭代算法 :由于每个q_ k^* 的表达式依赖于其他因子q_ {j≠k},这形成了一个耦合的方程组。标准的求解方法是 坐标上升法 :我们随机初始化所有变分因子q_ j,然后固定其中M-1个,更新剩下的那个以最大化L(q),如此循环往复。这个过程保证每次更新都会增加L(q),并最终收敛到一个局部最优解。这个迭代过程与EM算法在形式上相似,但VB同时估计了所有参数的不确定性(以分布的形式),而EM算法给出的是点估计。 在物理数据分析中的应用与实例 :VB在物理领域广泛应用,尤其是在需要量化不确定性和处理复杂隐变量模型的场景。 宇宙学参数估计 :从宇宙微波背景辐射(CMB)功率谱数据中,推断宇宙学模型(如ΛCDM)的参数(物质密度Ω_ m,哈勃常数H_ 0等)。VB可以高效地提供这些参数的后验分布近似,量化其相关性和不确定性。 神经网络贝叶斯化 :在物理信息神经网络(PINN)或用于粒子鉴别、事件分类的深度学习中,将神经网络的权重视为随机变量,用VB进行推断。这能得到 贝叶斯神经网络 ,其预测自带不确定性估计,对于实验物理中评估结果的可靠性至关重要。 盲源分离与去噪 :类似独立成分分析(ICA),但在贝叶斯框架下建模。假设观测信号是多个源信号的线性混合,并对源信号和混合矩阵都赋予先验分布。用VB可以同时推断源信号和混合矩阵的后验分布,并自动确定相关超参数(如噪声水平、源信号数量),常用于天体物理信号处理或引力波数据分析中的噪声分离。