最大似然估计
字数 1419 2025-12-14 08:03:28
最大似然估计
最大似然估计是一种基于概率模型的参数估计方法,它通过寻找最可能产生观测数据的参数值来进行参数估计。以下是循序渐进的知识点分解:
-
核心思想
- 假设我们有一组观测数据 \(x_1, x_2, \dots, x_n\),它们是从某个概率分布 \(f(x \mid \theta)\) 中独立抽取的,其中 \(\theta\) 是未知参数。
- 最大似然估计的目标是:找到一个参数值 \(\hat{\theta}\),使得观测数据出现的可能性(即“似然”)最大。
-
似然函数
- 对于独立同分布的数据,似然函数定义为各数据点概率密度(或概率质量)的乘积:
\[ L(\theta) = \prod_{i=1}^n f(x_i \mid \theta) \]
- 为了计算方便,通常取对数似然函数(将乘积转化为求和):
\[ \ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log f(x_i \mid \theta) \]
- 求解最大似然估计
- 对似然函数(或对数似然函数)关于参数 \(\theta\) 求导,令导数为零:
\[ \frac{\partial \ell(\theta)}{\partial \theta} = 0 \]
- 解此方程得到的 \(\hat{\theta}\) 即为最大似然估计值。
- 注意:有时可能需要数值优化方法(如梯度下降)求解。
- 一个简单例子:正态分布的参数估计
- 假设数据来自正态分布 \(N(\mu, \sigma^2)\),未知参数为 \(\theta = (\mu, \sigma^2)\)。
- 单个数据点的概率密度为:
\[ f(x_i \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) \]
- 对数似然函数为:
\[ \ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi) - \frac{n}{2} \log(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \]
- 分别对 \(\mu\) 和 \(\sigma^2\) 求导并令其为零,可得:
\[ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i, \quad \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2 \]
-
性质与优缺点
- 一致性:当样本量增大时,最大似然估计值收敛到真实参数值。
- 渐近正态性:在正则条件下,估计量的分布渐近于正态分布。
- 有效性:在一致估计量中,最大似然估计的渐近方差最小(达到克拉美 罗下界)。
- 缺点:对模型假设敏感;可能存在多个局部最大值;小样本下可能产生偏差(如正态分布的方差估计需要修正为 \(n-1\) 分母)。
-
物理数据分析中的应用
- 在实验物理中,常用于拟合测量数据(如粒子衰变寿命、光谱线形参数)。
- 结合贝叶斯方法时,可引入先验分布进行最大后验估计(MAP)。
- 在复杂模型中(如隐变量模型),可使用期望最大化(EM)算法迭代求解。