正态分布求极大似然估计,正态分布极大似然估计推导

不少人都关注了正态分布求极大似然估计和以及正态分布极大似然估计推导相关的话题,大家都不是很了解,那接下来听小编的讲解吧!


选自媒体

作者乔尼布鲁克斯-巴特利特

机器之心合集

概率论是机器学习和深度学习的基础知识,许多形式分析都是以概率的形式进行讨论的。而这些讨论或多或少都与最大似然估计密不可分,因为它是参数估计的基础之一,也是构建模型的基石。在本文中,我们详细讨论了机器学习中概率论的基石,从最大似然估计到贝叶斯推理,希望为读者预习和复习提供优秀的参考资源。

什么是参数?

在机器学习中,我们经常使用模型来描述生成观察数据的过程。例如,我们可以使用随机森林模型来对客户是否会取消服务进行分类,或者我们可以使用线性模型根据广告支出来预测公司的收入。每个模型都包含自己的一组参数,这些参数最终定义模型本身。

我们可以写出y=mx+c形式的线性模型。在预测广告收入的示例中,x可以代表广告支出,y代表产生的收入。m和c是该模型的参数。这些参数的不同值将在坐标平面上给出不同的直线。

具有不同参数值的三个线性模型。

因此,参数定义了模型的蓝图。仅当参数被选择为特定值时,才会给出描述给定现象的模型实例。

最大似然估计的直观解释

最大似然估计是一种确定模型参数值的方法。确定参数值的过程是找到使模型产生真实观测数据的可能性最大化的参数集。

上面的定义听起来可能还是有点模糊,所以我们通过一个例子来帮助理解。

假设我们观察一个流程的10个数据点。例如,每个数据点可以代表学生回特定考试题所需的时间长度。这10个数据点如下图所示

我们观察到的10个数据点。

至关重要的是,我们首先决定哪个模型最能描述数据生成的过程。至少,我们应该清楚该使用哪种模型。这种判断通常来自该领域的一些专家,但我们在这里不讨论这个题。

对于这些数据,我们假设数据生成过程可以用高斯分布充分描述。目视检查上面的值可以看出,高斯分布是合理的,因为这10个点大部分集中在中间,左右的点很少。

回想一下,高斯分布有两个参数均值和标准差。这些参数的不同值将对应不同的曲线。我们想知道“哪条曲线最有可能产生我们观察到的数据点”?使用最大似然估计,我们找到最适合数据的、值。

10个数据点以及可从中得出这些数据的高斯分布。f_1是均值10、方差225的正态分布,也可以表示为f_1N10,225。其他曲线有f_2N10,9、f_3N10,025、f_4N8,225。最大似然的目标就是找到最有可能生成已知观测数据分布的参数值。

我生成的10个数据的真实分布是f_1~N10,225,也就是上图中的蓝色曲线。

计算最大似然估计

现在我们对最大似然估计有了直观的了解,我们可以继续学习如何计算参数值。我们找到的参数值称为最大似然估计。

我们还将通过一个例子来演示这个过程。假设这次有三个数据点,我们假设它们是由高斯分布很好描述的过程生成的。点分别是9、95和11。那么如何用最大似然估计来近似这个高斯分布的参数和

我们要计算的是同时观察到所有这些数据的概率,即所有观察到的数据点的联合概率分布。因此,我们需要计算一些可能很难计算的条件概率。我们将在这里做出第一个假设,假设每个数据点都是独立于其他数据点生成的。这个假设使得计算更加容易。如果事件是独立的,则观察所有数据的总概率是单独观察每个数据点的概率的乘积。

由高斯分布生成的单个数据点x的概率为

表达式Px中的分号;,是为了强调分号后面的符号是概率分布的参数。因此,切勿将其与条件概率混淆。条件概率一般用垂直线表示,如PA|B。

在我们的示例中,同时观察所有三个数据点的总概率为

我们只需要找出能够最大化上述表达式的和的值即可。

如果您在数学课上学过微积分,那么您可能会意识到一个可以帮助我们找到函数最大值的技巧。我们所要做的就是求函数的导数,将导数设置为零,然后重新变换方程,使参数成为方程的未知数。这样,我们就得到了参数的MLE值。我将逐步完成这些步骤,但我假设读者知道如何区分常见功能。

对数似然函数

上面的总概率表达式实际上很难微分,因此几乎总是通过对表达式取自然对数来简化。这完全没题,因为自然对数是单调递增函数。这意味着如果x轴上的值增加,y轴上的值也会增加。这很重要,因为它确保概率的最大对数值出现在与原始概率函数相同的点。因此,我们可以用更简单的对数概率来代替原来的概率。

原函数的单调性,左边为y=x,右边为对数函数y=lnx。

这是非单调函数的示例,因为从左到右fx增加,然后减少,然后再次增加。

对初始表达式取对数可得

我们可以利用对数算法再次简化该表达式,得到

可以推导该表达式来找到最大值。在此示例中,我们想要找到平均值。为此,我们对函数求的偏导数,给出

最后将方程左边置为零,然后以为未知数重新排列表达式,可得

这样我们就得到了的最大似然估计。我们可以用同样的方式获得的最大似然估计,这留给感兴趣的读者作为练习。

最大似然估计总结

最大似然估计总是准确地得出解决方案吗?

简单地说,不。更有可能的是,对数似然函数的导数在实际场景中仍然难以处理。因此,通常使用期望最大化算法等迭代方法来寻找参数估计的数值解,但总体思路是相同的。

为什么叫“最大似然”而不是“最大概率”?

好吧,这只是统计学家的迂腐而已。大多数人倾向于互换使用术语“概率”和“可能性”,但统计学家和概率论学家对这两个概念进行了区分。通过查看这个等式,我们可以更好地阐明造成这种混乱的原因。

这两个表达式是相等的!那么这是什么意思?我们首先定义Pdata;、表示“在模型参数和条件下观察数据数据的概率”。值得注意的是,我们可以将其推广到任意数量的参数和任意分布。

另一方面,L,;data的意思是“我们观察一组数据data后,参数、取特定值的可能性”。

上面的公式表示,给定参数的数据的概率等于给定数据的参数的可能性。但即使这两个值相等,可能性和概率从根本上提出了两个不同的题——,一个关于数据,一个关于参数值。这就是为什么这种方法被称为最大似然,而不是最大概率。

最小二乘参数估计和最大似然估计何时给出相同的结果?

最小二乘法是机器学习模型参数估计的另一种常用方法。事实证明,当模型假设为高斯分布(如上例所示)时,MLE估计等效于最小二乘法。

直观上,我们可以通过了解这两种方法的目的来解释这两种方法之间的联系。对于最小二乘参数估计,我们希望找到使数据点与回归线之间距离平方和最小的线。在最大似然估计中,我们希望最大化数据同时出现的总概率。当假设所讨论的分布为高斯分布时,当数据点接近均值时找到最大概率。由于高斯分布是对称的,这相当于最小化数据点和均值之间的距离。

具有随机高斯噪声的回归线

上一节讨论了机器学习和统计模型中参数估计的最大似然方法。下面我们讨论贝叶斯推理的参数估计,并解释该方法如何推广到最大似然以及两者等效的条件。

阅读本文需要了解一些基本的概率论,例如边际概率和条件概率。此外,了解高斯分布是有帮助的,但不是必需的。

贝叶斯定理

在介绍贝叶斯推理之前,有必要先了解一下贝叶斯定理。贝叶斯定理的意义在于使我们能够利用现有的知识或信念来帮助计算相关事件的概率。例如,如果您想知道在炎热晴朗的天气下出售冰淇淋的概率,贝叶斯定理可以使用在其他类型的天气下可能出售的冰淇淋数量的先验知识。

数学定义

贝叶斯定理的数学定义如下

其中A和B是事件,PA|B是给定事件B发生的情况下事件A的条件概率,PB|A是相同的。PA和PB分别是事件A和事件B的边际概率。

例子

假设一副牌中有52张牌,其中26张是红色的,26张是黑色的。那么当卡片为红色时,卡片上的数字为4的概率是多少?

我们将事件A设置为数字4的牌,将事件B设置为红色的牌。因此,我们需要计算的概率为PA|B=P4|red。接下来,我们利用贝叶斯定理来计算这个概率值

1PB|A=预测|4=1/2

2PA=P4=4/52=1/13

3PB=预测=1/2

那么根据贝叶斯定理,可得P4|red=Pred|4P4/Pred=1/13。

为什么贝叶斯定理适用于先验信念?

仅通过查看数学公式很难理解这一点。我们将再次借用冰淇淋和天气的例子。

设A为卖冰淇淋事件,B为天气事件。我们的题是“给定天气类型,出售冰淇淋的概率是多少?”用数学符号表示为PA=冰淇淋销售|B=天气类型。

贝叶斯定理右侧的PA称为先验概率。在我们的示例中,PA=冰淇淋销售是销售冰淇淋的边际概率。一般来说,这个概率是已知的,所以称为先验概率。例如,我查看了数据,得知100人中有30人购买了冰淇淋,因此PA=冰淇淋销售=30/100=03,这是在知道任何有关天气信息之前的情况。

注意先验知识本身并不完全客观,它可能有主观成分,甚至是完全的测。而且这也会对最终的条件概率计算产生影响,稍后我会解释。

贝叶斯推理

定义

首先,推理是从数据中推导出总体分布或概率分布的属性的过程。对于最大似然方法也是如此,例如可以根据一系列观察到的数据点确定平均值的最大似然估计。

因此,贝叶斯推理只不过是利用贝叶斯定理从数据中推导出总体分布或概率分布的性质的过程。

使用贝叶斯定理处理数据分布

上面的例子使用了离散概率,有时可能需要使用连续概率分布。也就是说,卖冰淇淋的概率不仅可以是03,还可以是025或04以及任何其他可能的值。每个概率对应一个先验信念,因此它是一个函数fx,如下图所示。这种分布称为先验分布。

上图中的两条分布曲线都可以用作上述示例的先验分布,其中两条曲线均在x=03处达到峰值。当x03,f0时,这意味着我们不能完全确定03是出售冰淇淋的真实概率。蓝线表示先验概率的值更有可能在0-05之间,而黄线表示先验概率可能具有0-1之间的任意值。相对而言,黄线代表的先验分布比蓝线“更不确定”。

在处理模型时,大多数需要使用概率分布的形式。

贝叶斯定理的模型形式

模型形式的贝叶斯定理将使用不同的数学符号。

我们将用替换事件A。是我们感兴趣的事件,它代表参数集。所以如果要估计高斯分布的参数值,那么代表平均值和标准差,用数学形式表示为=。

我们用data或y=替换事件B,它代表观察到的数据集。

其中P是先验分布,代表


很多网友都想知道关于正态分布求极大似然估计和正态分布极大似然估计推导的相关信息,本文已经为您解完毕,谢谢大家的支持!

除非特别注明,本站所有文字均为原创文章,作者:admin

No Comment

留言

电子邮件地址不会被公开。 必填项已用*标注

感谢你的留言。。。