- 统计学习必学的十个问题:理论与实践
- 李轩涯 张暐
- 629字
- 2022-07-28 20:05:28
3.2 极大似然估计和平方损失
回归问题中,我们可以将每一个样本x对应的目标值看作一个均值为ωx的连续分布,如图3.1所示,它只假设分布p(y|x)服从高斯分布,而不关心p(x),所以训练过程本质上是在对这个条件分布的参数做估计(此章讨论一维变量的情形,下同)。
以这样的视角来重新考虑目标值的分布会发现,每一个样本的目标值yi都服从高斯分布N(ωTxi,σ2),它的均值为ωTxi,假设样本是独立同分布的,那么目标值的分布就是所有样本分布的乘积,形式为:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5184.jpg?sign=1738983763-zxhDpz3pn1bqmhtqPH4ZP0trXR2iH6T3-0-d2e2a49624b5c7881bc0f935899b4f6f)
图3.1 每一个样本x0都对应着一个高斯分布,分布的均值作为真实值
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5232.jpg?sign=1738983763-o1pOyTd7tRb0Hw0FSvlyeXAYfw3MmpKB-0-6309d122df4d582b556f3a1b833bcfa4)
定理3.2(极大似然估计) 给定分布的概率密度函数f,这个概率分布由参数θ控制,我们从分布中采样X1,X2,X3,…,Xn,似然函数就是样本关于该参数的条件概率:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5234.jpg?sign=1738983763-MzGsoduAlbG9oiLvVFnwsuooaKuK5tov-0-4ccaff2c0a79dc39155e434f7c22ac17)
最大化似然函数的意义就是在参数θ的所有的可能取值中,寻找一个使得采样最可能出现的θ,可能性最大,意味着似然函数也达到了最大值。
因为总的似然函数等于所有样本分布的乘积,大量的小的数连乘会造成数值下溢,所以我们将似然函数取对数,连乘就变为了对数求和:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5236.jpg?sign=1738983763-swW8L1fNlKsDMfq3HMu0aLIBGROnKDy4-0-f6237a4104807bcdf18fa4500adabe36)
最大化对数似然就是最大化多个高斯分布的对数和:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5237.jpg?sign=1738983763-ilHvwiatMTAyeoYMeQ9pBjIcIaPILCWT-0-011b7fa2de9ed673b3402b6923f7abbe)
利用对数的性质,就可以将其拆开:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5242.jpg?sign=1738983763-qx3yqVQUyTSdldSQS5KibAUlXtGwWy7N-0-15406f0f2f7fbddadd6ba33d8af0a9b6)
其中ln(σ)与ω无关,最大化对数似然,相当于最小化其负值,所以,我们有:
![](https://epubservercos.yuewen.com/06CE0C/23721657201043606/epubprivate/OEBPS/Images/Figure-P36_5241.jpg?sign=1738983763-C2NMUJXlxxm2Ec8XUGaOqRmh1VgamI4I-0-f1f452a1fc9016767de9263da4544dc3)
其中标准差σ独立于ω,不参与优化。这样,我们就以极大似然估计的方法得到了均方误差的表达式。极大似然估计是贯穿统计学习和深度学习的参数估计办法,我们会经常使用它来得到损失函数,因为极大似然估计可以获得参数估计的一致性(见第4章)。