很多人都是想知道一些关于对于参数估计正确的是和关于参数估计的正确说法是的题,今天小编就为你带来详细的解说。
本章内容
1.什么是统计学习?
2.为什么要估计函数f
3.参数和非参数方法
4.预测精度和模型可解释性之间的权衡
5.监督学习和非监督学习
6.分类与回归
7.如何衡量模型的准确性
8.偏差和方差之间的权衡
9.贝叶斯分类器和KNN算法
1.什么是统计学习?
统计学习是一套旨在理解数据的庞大工具。统计学习工具可以分为两大类监督学习和无监督学习。事实上,统计学习是关于估计函数f的一系列方法。
2.为什么要估计函数f
预测
在许多情况下,输入集X是现成可用的,但输出集Y却不是现成可用的。由于误差项的平均值为0,因此可以通过以下公式预测Y
在这个公式中,f是一个黑盒,这意味着一般情况下,如果黑盒能够提供准确的预测Y,则f的精确形式并不是很追求。
推断
在某些情况下,估计函数f的目标是了解X和Y之间的关系,而我更感兴趣的是X1,X2,Xp的变化如何影响Y。在这种情况下,f不能被视为黑匣子,因为我们需要知道它的具体形式。可能涉及以下题
哪些预测变量与响应变量相关
响应变量和每个预测变量之间的关系是什么?
Y和每个预测变量之间的关系是否可以用线性方程来概括,或者它们的关系是否需要更复杂的形式。
3.参数和非参数方法
参数方法基于模型估计的两阶段方法
步骤假设模型f具有一定的形状,所选模型使用训练数据集来拟合或训练模型
优点将估计f的题简化为估计一组参数。
缺陷选择的模型与真实的f在形式上不一致。
解决思路选择一个光滑模型来拟合多种不同形式的函数f。
过度拟合模型拟合不正确或有噪声。构建的模型产生较小的训练均方误差,但产生较大的测试均方误差。无论是否过拟合,我们总是期望训练均方误差小于测试均方误差。作为一种特殊的应用,过拟合的存在意味着降低模型的平滑度可以减少检验均方误差。
非参数方法追求接近数据点的估计
优点函数f的具体形式不受。
缺点估计f的题不能简化为估计几个参数的题,因此往往需要大量的观测点。
4.预测精度和模型可解释性之间的权衡
当目标是推理时,模型的结构受到约束,并且模型是可解释的。当仅对预测感兴趣时,通常也可以在欠平滑模型上获得准确的预测。欠平滑模型是违反直觉的,但它恰好具有抵抗过拟合缺陷的能力。
5.监督学习和非监督学习
监督学习建立预测统计模型;估计一个或多个给定输入的输出。
gt;包括线性回归、逻辑回归、广义加性模型GAM、提升法和支持向量机等。
无监督学习有输入变量,但没有指定输出变量。当您需要了解变量之间或观察值之间的关系时。
gt;示例聚类分析
半监督学习n次预测,其中m次同时观察预测变量和响应变量,n-m次只能观察预测变量。
6.分类与回归
回归响应变量是定量的。通常选择线性回归模型。
分类响应变量是定性的。通常使用逻辑回归模型。
7.如何衡量模型的准确性
回归模型
均方误差MSE均方误差
训练均方误差训练MSE
测试点x0,y0的均方预测误差
模型选择应力图使测试均方误差尽可能小,不一定是训练均方误差最小。
>>如何选择最小化检验均方误差的模型
使用一组尚未用于构建统计学习模型的观察结果作为测试数据
分类模型
训练错误率错误分类的比例。I=1表示错误分类。
训练误差
测试误差AveIy0y0^
8.偏差和方差之间的权衡
预计检验的均方误差可以分解为三个基本量之和
预期检验均方误差
方差表示用不同的训练数据集估计f时估计函数的变量。一般来说,平滑度较高的统计模型具有较高的方差。
偏差为了选择简单的模型来逼近真实函数而引入的误差。一般来说,平滑度越高的统计模型产生的偏差越小。
不可约误差
偏差、方差和检验均方误差之间的关系是偏差=方差权衡。如果说一个统计学习模型具有良好的测试性能,那么就要求该模型具有较小的方差和较小的偏差。
九、贝叶斯分类器和KNN算法
贝叶斯分类器
在二元分类题中,只有两种可能的响应值,一种称为类别1,另一种称为类别2。如果当X=x0时Y=1的条件概率大于05,则贝叶斯分类器将观察到类别被预测为1,否则预测为类别2。等于05的点称为贝叶斯决策边界。
KNN算法
选择一个x0,从识别训练集中最接近x0的K个点集开始,用N0代表K个点的***,然后用N0中的一个点来估计每个类别j的分数,作为条件的估计概率,该值等于j。最后,使用贝叶斯规则将x0分类到概率最高的类中
例如,选取x0周围的K个小,红色标记为a,绿色标记为b。如果被红包围的概率大于05,则被归类为红色。
K的选择对于获得KNN分类器有着根本性的影响。当K较小时,偏差较小,但方差较大;当K增大时,模型的平滑性减弱,方差较低但偏差较高。K=10
紫色虚线是贝叶斯决策边界;黑色KNN决策边界
关于对于参数估计正确的是和关于参数估计的正确说法是的详细内容已解完毕,记得持续关注本站。
No Comment