2024年10月数据正则化处理（(四)关于正则化）

更新时间：2024-10-12

　　⑴数据正则化处理（(四)关于正则化

　　⑵什么是正则化?正则化包括正则化变量和正则化承载两个内容。它是在实际应用中体现区域化变量理论的一个技术环节。

　　⑶若观测数据为Zv(x),信息点x的承载(支撑)为u(例如钻探工程的岩心样品,坑道内取的矿样等)。此时,x点的观测数据Zv(x)实际上是点x所在的承载的数据,这个承载占有一定的体积,现实中它不可能是一个纯粹的点数据(纯粹的点数据只是理论上的),因此,代表点x的承载u(x)的数据(如矿石品位)Zv(x)实际上是点x承载的信息平均值。

　　⑷地质统计学(空间信息统计学)基本理论与方法应用

　　⑸平均值Zv(x)即为区域化变量Z(y)在承载u(x)内的正则化变量,其中u(x)称正则化承载。而Zv(x)的运算过程叫做把Z(y)在u(x)上的正则化。所以正则化就是用承载u(x)内的平均值代替原始(点)数据。正则化依赖于正则化支撑(承载)u(x)的大小,形状及方向正则化承载u(x)确定后,正则化变量Zv(x)亦是一个区域化变量,所以又称作是原区域化变量Z(y)的正则化变量。

　　⑹正则化变量Zv(x)的性质

　　⑺若Z(y)二阶平稳,则Z(x)同样二阶平稳。即满足Z(y)二阶平稳的两个条件:

　　⑻Cov(协方差函数)-m=C(h)

　　⑼同样是满足Zv(y)二阶平稳的条件,将Z(y)和Z(y+h)换成Zv(x)和Zv(x+h)即可。

　　⑽若Z(y)二阶平稳,则正则化变量Zv(x)的变差函数存在而且平稳,其协方差函数Cv(h)、方差函数Cv()和变差函数γv(h)之间亦满足关系式:γv(h)=Cv()-Cv(h)(证明从略)

　　⑾正则化(变量的)变差函数的计算公式:

　　⑿地质统计学(空间信息统计学)基本理论与方法应用

　　⒀我们可以把变差函数计算公式看成是用平均品位Zv(x+h)估计平均品位Zv(x)的估计方差h),u(x+h)]}

　　⒁因为点半变差函数γ(h)平稳,所以上式右边的后两项相等

　　⒂地质统计学(空间信息统计学)基本理论与方法应用

　　⒃式中的γh表示支撑v平移了一个向量h后形成的另一支撑。

　　⒄当距离h相对于支撑v很大时(h《《r),其平均值γ(v,vh)近似地等于点变差函数γ(h),

　　⒅即γv(h)≈γ(h)(这个公式在实际工作中很有用)它们的关系如下图所示。

　　⒆例如,有一个钻孔的所有岩心样品具有相同的样长l和相同的样品横截面积S,当S与l相比甚小时,可以忽略S,这样,就可以把两个岩心样品看成是具有同样长度l和相隔距离为h的两个列线线段,其正则化的变差函数式写成

　　⒇地质统计学(空间信息统计学)基本理论与方法应用

　　⒈求解不适定问题的普遍方法是:用一组与原不适定问题相“邻近”的适定问题的解去逼近原问题的解,这种方法称为正则化方法。如何建立有效的正则化方法是反问题领域中不适定问题研究的重要内容。通常的正则化方法有基于变分原理的Tikhonov正则化、各种迭代方法以及其它的一些改进方法,这些方法都是求解不适定问题的有效方法,在各类反问题的研究中被广泛采用,并得到深入研究。正则化:Regularization，代数几何中的一个概念。就是给平面不可约代数曲线以某种形式的全纯参数表示。即对于PC^中的不可约代数曲线C，寻找一个紧Riemann面C*和一个全纯映射σ:C*→PC^,使得σ(C*)=C设C是不可约平面代数曲线，S是C的奇点的集合。如果存在紧Riemann面C*及全纯映射σ:C*→PC^,使得()σ(C*)=C()σ^(-)(S)是有限点集()σ:C*σ^(-)(S)→CS是一对一的映射则称(C*,σ)为C的正则化。不至于混淆的时候，也可以称C*为C的正则化。正则化的做法，实际上是在不可约平面代数曲线的奇点处，把具有不同切线的曲线分支分开，从而消除这种奇异性。正则化就是对最小化经验误差函数上加约束，这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用，在优化误差函数的时候倾向于选择满足约束的梯度减少的方向，使最终的解倾向于符合先验知识(如一般的l-norm先验，表示原问题更可能是比较简单的，这样的优化倾向于产生参数值量级小的解，一般对应于稀疏参数的平滑解)。同时，正则化解决了逆问题的不适定性，产生的解是存在，唯一同时也依赖于数据的，噪声对不适定的影响就弱，解就不会过拟合，而且如果先验(正则化)合适，则解就倾向于是符合真解(更不会过拟合了)，即使训练集中彼此间不相关的样本数很少。

　　⒉机器学习模型需要拥有很好地泛化能力来适应训练集中没有出现过的新样本。在机器学习应用时，我们经常会遇到过度拟合(over-fitting)的问题，可能会导致训练出来的模型效果很差。接下来，我们将谈论的正则化(regularization)技术，它可以改善或者减少过度拟合问题，以使学习算法更好实现。

　　⒊机器学习中一个重要的话题便是模型的泛化能力，泛化能力强的模型才是好模型，对于训练好的模型，若在训练集表现差，不必说在测试集表现同样会很差，这可能是欠拟合（underfitting导致；若模型在训练集表现非常好，却在测试集上差强人意，则这便是过拟合（overfitting导致的，过拟合与欠拟合也可以用Bias与Variance的角度来解释，欠拟合会导致高Bias，过拟合会导致高Variance，所以模型需要在Bias与Variance之间做出一个权衡。

　　⒋使用简单的模型去拟合复杂数据时，会导致模型很难拟合数据的真实分布，这时模型便欠拟合了，或者说有很大的Bias，Bias即为模型的期望输出与其真实输出之间的差异；有时为了得到比较精确的模型而过度拟合训练数据，或者模型复杂度过高时，可能连训练数据的噪音也拟合了，导致模型在训练集上效果非常好，但泛化性能却很差，这时模型便过拟合了，或者说有很大的Variance，这时模型在不同训练集上得到的模型波动比较大，Variance刻画了不同训练集得到的模型的输出与这些模型期望输出的差异。

　　⒌Bias反映的是模型的期望与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。

　　⒍我们通过公式来直观了解一下，文字没有数学符号解释的清楚：

　　⒎用图形解释方差与偏差：

　　⒏举一个例子，一次打靶实验，目标是为了打到环，但是实际上只打到了环，那么这里面的Error就是。具体分析打到环的原因，可能有两方面：一是瞄准出了问题，比如实际上射击瞄准的是环而不是环；二是枪本身的稳定性有问题，虽然瞄准的是环，但是只打到了环。那么在上面一次射击实验中，Bias就是,反应的是模型期望与真实目标的差距，而在这次试验中，由于Variance所带来的误差就是，即虽然瞄准的是环，但由于本身模型缺乏稳定性，造成了实际结果与模型期望之间的差距。

　　⒐简单的模型会有一个较大的偏差和较小的方差，复杂的模型偏差较小方差较大。

　　⒑解决欠拟合的方法：、增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间;、尝试非线性模型，比如核SVM、决策树、DNN等模型;、如果有正则项可以较小正则项参数;、Boosting,Boosting往往会有较小的Bias，比如GradientBoosting等.解决过拟合的方法：、交叉检验，通过交叉检验得到较优的模型参数;、特征选择，减少特征数或使用较少的特征组合，对于按区间离散化的特征，增大划分的区间;、正则化，常用的有L、L正则。而且L正则还可以自动进行特征选择;、如果有正则项则可以考虑增大正则项参数;、增加训练数据可以有限的避免过拟合;、Bagging,将多个弱学习器Bagging一下效果会好很多，比如随机森林等.DNN中常见的方法：、早停策略。本质上是交叉验证策略，选择合适的训练次数，避免训练的网络过度拟合训练数据。、集成学习策略。而DNN可以用Bagging的思路来正则化。首先我们要对原始的m个训练样本进行有放回随机采样，构建N组m个样本的数据集，然后分别用这N组数据集去训练我们的DNN。即采用我们的前向传播算法和反向传播算法得到N个DNN模型的W,b参数组合，最后对N个DNN模型的输出用加权平均法或者投票法决定最终输出。不过用集成学习Bagging的方法有一个问题，就是我们的DNN模型本来就比较复杂，参数很多。现在又变成了N个DNN模型，这样参数又增加了N倍，从而导致训练这样的网络要花更加多的时间和空间。因此一般N的个数不能太多，比如-个就可以了。、DropOut策略。所谓的Dropout指的是在用前向传播算法和反向传播算法训练DNN模型时，一批数据迭代时，随机的从全连接DNN网络中去掉一部分隐藏层的神经元。在对训练集中的一批数据进行训练时，我们随机去掉一部分隐藏层的神经元，并用去掉隐藏层的神经元的网络来拟合我们的一批训练数据。使用基于dropout的正则化比基于bagging的正则化简单，这显而易见，当然天下没有免费的午餐，由于dropout会将原始数据分批迭代，因此原始数据集最好较大，否则模型可能会欠拟合。

　　⒒正则化的目的是限制参数过多或者过大，避免模型更加复杂。例如，使用多项式模型，如果使用阶多项式，模型可能过于复杂，容易发生过拟合。因此需要在目标函数添加一些额外的惩罚项，即正则项。添加惩罚项可看成是对损失函数中的某些参数做一些限制，根据惩罚项的不同可分为：L范数惩罚、L范数惩罚（参数稀疏性惩罚、L范数惩罚（权重衰减惩罚。L范数惩罚：为了防止过拟合，我们可以将其高阶部分的权重w限制为，这样，就相当于从高阶的形式转换为低阶。为了达到这一目的，最直观的方法就是限制w的个数，但是这类条件属于NP-hard问题，求解非常困难。因此机器学习中经常使用L、L正则化。L正则化项也称为Lasso，L正则化参数也称为Ridge。L范数：权值向量w中各个元素的绝对值之和，L正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择。L范数：权值向量w中各个元素的平方和然后再求平方根，L正则化可以防止模型过拟合；一定程度上，L也可以防止过拟合。

　　⒓上面我们得到了带约束的优化问题A，在实际的求解中，带约束的优化问题往往较难求解，大多都是转化为无约束优化问题去求解。接下来自然而然的我们采用拉格朗日乘子法将约束转化到目标函数上去，也就将约束优化问题A转化为一个无约束的优化问题。那么这个无约束优化问题的形式是什么样的呢？这里直接先把最终的结论摆上来：

　　⒔稀疏性对很多机器学习建模问题来说是非常重要的，也是非常好的一个性质。既然有很多系数等于了，那么说明与之对应的输入是没有用了，这些输入就可以舍去，相当于起到了降维和featureselection的作用。特殊要说明的是用L正则化来降维和PCA降维是不同的，可以理解为L正则化是用了数据的标签来做的，而PCA无需数据的标签。所以L正则化实际上是带有监督学习性质的降维方法。

　　⒕拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是抗扰动能力强。

　　⒖λ可以控制L图形的大小，λ越小，L的图形越大（上图中的黑色方框和圆；λ越大，L的图形越小，最后求得代价函数最值时各参数也会变得很小。从另一方面看，由公式可以看到，λ越大，θj衰减得越快。

　　⒗机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？机器学习防止欠拟合、过拟合方法

　　⒘【学界】有约束转无约束，拉格朗日松弛观点下的L正则化稀疏性探讨

　　⒙斯坦福机器学习课程第三周()正则化：解决过拟合问题

　　⒚拉格朗日乘子法如何理解？

　　⒛机器学习中正则化项L和L的直观理解

　　正则化：.正则化的目的：防止过拟合！.正则化的本质：约束（限制要优化的参数。关于第点，过拟合指的是给定一堆数据，这堆数据带有噪声，利用模型去拟合这堆数据，可能会把噪声数据也给拟合了，这点很致命，一方面会造成模型比较复杂（想想看，本来一次函数能够拟合的数据，现在由于数据带有噪声，导致要用五次函数来拟合，多复杂！，另一方面，模型的泛化性能太差了（本来是一次函数生成的数据，结果由于噪声的干扰，得到的模型是五次的，遇到了新的数据让你测试，你所得到的过拟合的模型，正确率是很差的。关于第点，本来解空间是全部区域，但通过正则化添加了一些约束，使得解空间变小了，甚至在个别正则化方式下，解变得稀疏了。这一点不得不提到一个图，相信我们都经常看到这个图，但貌似还没有一个特别清晰的解释，这里我尝试解释一下，图如下：?这里的w，w都是模型的参数，要优化的目标参数，那个红色边框包含的区域，其实就是解空间，正如上面所说，这个时候，解空间“缩小了”，你只能在这个缩小了的空间中，寻找使得目标函数最小的w，w。左边图的解空间是圆的，是由于采用了L范数正则化项的缘故，右边的是个四边形，是由于采用了L范数作为正则化项的缘故，大家可以在纸上画画，L构成的区域一定是个圆，L构成的区域一定是个四边形。再看看那蓝色的圆圈，再次提醒大家，这个坐标轴和特征（数据没关系，它完全是参数的坐标系，每一个圆圈上，可以取无数个w，w，这些w，w有个共同的特点，用它们计算的目标函数值是相等的！那个蓝色的圆心，就是实际最优参数，但是由于我们对解空间做了限制，所以最优解只能在“缩小的”解空间中产生。蓝色的圈圈一圈又一圈，代表着参数w，w在不停的变化，并且是在解空间中进行变化（这点注意，图上面没有画出来，估计画出来就不好看了，直到脱离了解空间，也就得到了图上面的那个w*，这便是目标函数的最优参数。对比一下左右两幅图的w*，我们明显可以发现，右图的w*的w分量是，有没有感受到一丝丝凉意？稀疏解诞生了！是的，这就是我们想要的稀疏解，我们想要的简单模型。还记得模式识别中的剃刀原理不？倾向于简单的模型来处理问题，避免采用复杂的。【剃刀原理：剃刀是一种经验法则，用于允许排除(刮掉)不可能的解释或者情况。另提一句，剃刀是一种有效的思维方式，但事实上并不是严格意义上的“定理”。】这里必须要强调的是，这两幅图只是一个例子而已，没有说采用L范数就一定能够得到稀疏解，完全有可能蓝色的圈圈和四边形（右图的一边相交，得到的就不是稀疏解了，这要看蓝色圈圈的圆心在哪里。此外，正则化其实和“带约束的目标函数”是等价的，二者可以互相转换。关于这一点，?通过熟悉的拉格朗日乘子法（注意这个方法的名字，?看到没，这两个等价公式说明了，正则化的本质就是，给优化参数一定约束，所以，正则化与加限制约束，只是变换了一个样子而已。此外，我们注意，正则化因子，也就是里面的那个lamda，如果它变大了，说明目标函数的作用变小了，正则化项的作用变大了，对参数的限制能力加强了，这会使得参数的变化不那么剧烈（仅对如上数学模型，直接的好处就是避免模型过拟合。反之，自己想想看吧。。。个人感觉，“正则化”这几个字叫的实在是太抽象了，会吓唬到人，其实真没啥。如果改成“限制化”或者是“约束化”，岂不是更好？

　　过拟合本质上是模型太过复杂，复杂到消弱了模型的泛化能力。由于训练数据时有限的，因此总可以通过增加参数的的方式来提升模型的复杂度，降低训练误差。可正如你学习的领域越专精，可应用的范围可能越窄，则在模型训练中就是指过拟合。

　　如图所示的红色曲线就是过拟合。

　　正则化是用于抑制过拟合方法的统称，通过动态调整模型参数的取值来降低模型的复杂度。这是因为当一些参数的取值足够小时，参数对应的属性对结果的影响微乎其微，这在实质上去除了非相关属性的影响。

　　在线性回归里，最常见的正则化方式就是在损失函数中添加正则化项，而添加的正则化项往往是待估计参数的p-范数。将均方误差和参数的范数之和作为一个整体来进行约束优化，相当于额外添加了一重关于参数的限制条件，避免大量参数同时出现较大的取值。由于正则化的作用通常是让参数估计值的幅度下降，因此在统计学中它也被称为系数收缩方法。

　　w，w都是模型的参数，要优化的目标参数。蓝色的圆圈表示没有经过限制的损失函数在寻找最小值过程中，w的不断迭代（随最小二乘法，最终目的还是使损失函数最小变化情况，表示的方法是等高线，z轴的值就是E(w)。

　　那个红色边框包含的区域，其实就是解空间，只能在这个缩小了的空间中，寻找使得目标函数最小的w，w。左边图是岭回归，是由于采用了L范数正则化项的缘故，要求两个参数的平方和小于某个固定的参数，所以是圆形。右边的LASSO，是由于采用了L范数作为正则化项，要求两个参数的绝对值之和小于某个固定值，所以解空间是方形。

　　图中蓝色和红色的交点就是最优参数解，交点出现的位子取决于边界的情况，岭回归的边界是曲线，误差等值线可以在任意位置和边界相切。LASSO边界是直线，因此切点最可能出现在方形的顶点上，这就意味着某个参数的取值为。岭回归：衰减不同属性的权重，让所有属性向圆心收拢。LASSO：直接将某些属性的权重降为，是对属性的过滤筛选。

　　当属性的数目远远大于样本的数目的高纬度统计问题，并且不少属性间还存在着相关性时，建议使用LASSO回归来属性的数目。LASSO回归会让很多属性的系数变成，保留一些系数较大的属性，这个时候系数的取值会对结果又较大影响，因此需要对属性的取值范围进行调整，比如标准化。

　　当样本数远大于属性数时，岭回归更快，岭回归不会删除属性，会对属性的取值范围进行压缩，特征值小的特征向量会被压缩的很厉害，因此要求属性的取值范围差不多，这样系数差不多，压缩更有意义。

　　参考资料：王天一，机器学习讲。

　　什么是正则化希望得到详细定义和例子

　　图像复原从数学角度考虑，它等价于第一类fredholm积分方程，是一种反问题，具有很大的病态性，因此，必须进行正则化处理。从统计的角度看，正则化处理其实就是一种图像的先验信息约束。假设图像退化过程用如下模型描述：g=hf+n（则图像复原即根据观测图像g恢复原始图像f。正则化图像复原从贝叶斯角度来说，可以用map(最大后验概率估计)方法实现，即：f=argmax{p(f|g)＝p(g|f)p(f)/p(g)}（先验分布函数p(f)可以看成一正则化项。图像复原关键问题是先验模型p(f)的选取，也可以说图像建模在图像复原中起者中心作用。早期的图像复原方法假设服从平稳高斯分布，从而导致约束最小二乘图像复原方法；但许多统计试验表明大部分自然图像都不能用平稳高斯分布准确的描述，模型的不准确导致复原的图像质量较差，图像边缘不能很好的保持。mrf(markovrandomfield)在图像复原中起很重要的作用，如果将原始图像看作mrf的一次实现，根据mrf的局部性，可以用局部gmrf（gaussmarkovrandomfield对图像进行建模，按照这种方式建立的模型比用平稳高斯分布更为准确，因此所复原的质量也较好。现代很多人热衷于小波变换的图像复原，其原因是图像的小波系数可近似认为互相独立，且能够用简单的统计模型描述（如广义高斯分布等。我认为小波在图像复原中主要起工具的作用，现在关于小波方法进行图像复原，研究重点应放在对小波系数的统计建模（如小波系数尺度间、尺度内、方向间的相关性等。由于一般正交小波变换不具有平移不变性和方向较少的特点，基于这些不足，现在的发展是在其他变换域内建立模型，如（冗余小波变换，复小波变换，脊波，曲波等这仍是一个正在发展的课题，关于对这些变换域系数进行统计建模用于图像复原能够弥补正交小波变换的不足，然而重点仍是对变换系数的统计建模。正如我们如上所说，图像建模对图像复原起很重要的作用。然而，从计算复杂度的角度考虑，一个好的模型常导致计算上的困难。因为一个好的模型最终导致一个（式有多个极值点，从而在计算上必须用一些全局优化算法（如模拟退火等，这导致很大的计算量。综上分析，图像复原需要两方面的知识需要考虑：统计建模的知识计算方法的知识。两者任一方面的改进，都会推动图像复原的发展。因此，必须懂得数理统计，贝叶斯分析，随机场，优化算法，矩阵论，小波分析等数学课程。

　　正则化（Regularization

　　在之前的学习中，我们已经了解了线性回归和逻辑回归的相关问题，并且学习了两种算法的假设函数和梯度下降的基本算法。但是，在算法的实际应用中，并不是特征值越多，假设函数与训练数据集拟合的越完美越好，或者说其代价函数为（，出现这种情况会使得假设函数预测新的数据变得困难，称之为过拟合（Overfitting，过拟合如下图所示：为了解决过拟合问题，有以下解决方案:正则化的思想就是减少高次项的值，使得曲线平滑，因此，在线性回归算法中的代价函数可以如下表示：以上公式中，表示正则化参数，在算法实际运行过程中，要选择合适的值，不能使其过大，否则可能会导致过拟合不能被消除，或者梯度下降算法不收敛。正规方程法的正则化算法公式如下：其中表示x的对角矩阵，其主对角线第一个元素为，其余全为.与线性回归算法类似，逻辑回归算法的正则化也是通过减少高次项的值，使得决策边界变得平滑，以避免出现过拟合问题，其代价函数正则化用如下公式表示：梯度下降算法中的正则化表示如下所示：需要注意的是：与线性回归不同的是，此时

　　数据标准化、归一化、正则化概念厘定

　　网上较为混乱，书上看过又忘了，查找不便，特地总结于此。首先吐槽一点，我记不住，当然有个人记性不好的原因，但更重要的是，本身概念就是混乱的，如身边的同事、网上各类业余的文章（很多文章是有误导性的，甚至某些论文里的定义都不太一样。进行数据尺度变化的目的，在于更好的训练模型，详见参考资料。在聚类算法中，不进行尺度变化，会导致错误的结果（量纲不同，取值较小的特征会被取值较大的特征淹没，至于决策树类的算法倒是无此问题（计算信息增益比，是否尺度变化并不影响。scaling，是将数据按比例缩放，使之落入一个小的特定区间。零均值标准化（z-scorestandardization，，分布转换为正态分布，均值为，方差为，取值。该方法对异常值、噪声不敏感，应用最为广泛，一般在涉及距离度量计算相似性（如KNN、Kmeans聚类或PCA（核心是计算方差、协方差时使用。线性归一化（min-maxnormalization，该方法在sklearn中被称为另一种形式的standardization。通过对原始数据的线性变换，使结果落到区间。该方法对原始数据进行线性变化，可保持原始数据之间的联系，缺陷是当有新数据加入时，最大最小值可能改变，需重新计算转换函数。有朋友可能会问，那在PCA时使用最大最小标准化代替零均值标准化可以么？参考资料中给出了清晰的证明，有兴趣的朋友可以阅读，大意就是，最大最小标准化使得协方差产生了倍数值缩放，无法消除量纲的影响。因此，如果需要每个特征值都对整体归一化产生一定影响的话（和分布相关的话，选择零均值标准化。在sklearn中定义为，?缩放单个样本使其具有单位范数的过程，计算方式是计算每个样本的p范数，然后对该样本中的每个元素除以该范数，使得处理后样本的p范数等于，把数变为（-之间的小数，消除量纲。该方法主要应用于文本分类和聚类，例如对于TF-IDF向量的l-norm点积，即得到这两个向量的余弦相似度。机器学习中对损失函数的操作，非数据特征集进行的尺度变化。映射到其他分布，如指定区间、均匀分布、高斯分布、np.logp等，特别是对于较多异常值的数据集时，采用robust_scale、RobustScaler是更好的选择。阅读sklearn文档是学习机器学习最好的方式。附，参考资料：、sklearn文档，..预处理数据，、特征归一化特性及其数学原理推导，

　　正则化为什么可以减小数据空间

　　正则化是用来防止过拟合的一种技术。过拟合是指模型对训练数据的过度拟合，导致在预测新数据时出现高误差。正则化就是在模型的损失函数中加入一个惩罚项，来限制模型参数的值。常用的正则化方法有L正则化和L正则化。

　　L正则化就是在损失函数中加入权重系数的绝对值之和，通过限制权重系数的绝对值之和，来减小数据空间。因为L正则化会让权重系数有一部分变为，所以它还可以用来进行特征选择。

　　L正则化就是在损失函数中加入权重系数的平方之和，通过限制权重系数的平方之和，来减小数据空间。L正则化不会让权重系数变为，所以它只能用来限制权重系数的值。

　　总之，正则化通过限制模型参数的值来减小数据空间，从而防止过拟合。

　　AI数学基础——常见的正则化方法

　　，Lregularization（权重衰减L正则化就是在代价函数后面再加上一个正则化项λ，使得权重在更新的时候，乘以一个小于的因子（-a(λ/m))，这个可以防止W过大。正则化项里面有一个系数/，/经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个，与/相乘刚好凑整。过拟合的时候，拟合函数的系数往往非常大。过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大LRegularization防止了系数W过大，也就防止了拟合函数导数值过大，也就防止了函数导数值波动过大，也就解决了过拟合问题。L正则化是训练深度学习模型中最常用的一种解决过拟合问题的方法。，Lregularization，L正则化的正则项是所有权重w的绝对值的和，乘以λ/n（这里不像L正则化项那样，需要再乘以/；消除过拟合的原因与L类似。使用频率没有L正则化高。，Dropout正则化L、L正则化是通过修改代价函数来实现的，而Dropout则是通过修改神经网络本身来实现的。Dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是暂时，对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。运用了dropout的训练过程，相当于训练了很多个只有半数隐层单元的神经网络（后面简称为“半数网络”，每一个这样的半数网络，都可以给出一个分类结果，这些结果有的是正确的，有的是错误的。随着训练的进行，大部分半数网络都可以给出正确的分类结果，那么少数的错误分类结果就不会对最终结果造成大的影响。dropout率的选择：经过交叉验证，隐含节点dropout率等于.的时候效果最好，原因是.的时候dropout随机生成的网络结构最多具体细节，推荐Alex和Hinton的论文《ImageClassificationwithDeepConvolutionalNeuralworks》，数据集扩增（dataaugmentation在深度学习方法中，更多的训练数据，意味着可以用更深的网络，训练出更好的模型。但是很多时候，收集更多的数据意味着需要耗费更多的人力物力，非常困难。所以，可以在原始数据上做些改动，得到更多的数据，以图片数据集举例，可以做各种变换，如：，水平翻转或任意角度旋转；，裁剪；，添加噪声更多数据意味着什么？用个MNIST的样本训练SVM得出的auracy.%，用个MNIST的样本训练NN得出auracy为.%，所以更多的数据可以使算法表现得更好。在机器学习中，算法本身并不能决出胜负，不能武断地说这些算法谁优谁劣，因为数据对算法性能的影响很大。，提前停止训练神经网络（EarlyStop在一个适中的迭代次数，W不是很大的时候，devseterror接近最小，trainseterror适中的时候，提前停止训练，如下图所示参考文献：AndrewNg《PrracticalaspectsofDeeplearning》.~.

您可能感兴趣的文章:

2024年10月数据正则化处理（(四)关于正则化）

相关文章

大家感兴趣的内容

最近更新的内容