首页 SEO攻略正文

大模型训练环节中罕用的优化方法重要有哪些 (大模型训练环境)

SEO攻略 2024-07-30 35

本文目录导航：

大模型训练环节中罕用的优化方法重要有哪些？
几种罕用最优化方法
速度模型的建构

大模型训练环节中罕用的优化方法重要有哪些？

在大模型训练环节中，罕用的优化算法重要包括以下几种：1. 梯度降低法：用于优化神经网络的损失函数，经过逐渐降级神经网络的参数，以最小化损失函数。

2. 随机梯度降低法：在训练大模型时，或许会出现梯度隐没或爆炸的疑问，随机梯度降低法经过在每次降级时参与随机性，防止了这个疑问的出现。

3. Adam优化器：一种罕用的自顺应学习率优化算法，可以更好地处置大规模数据和复杂模型，提高训练效率。

4. 共轭 gradient 梯度方法：如 AdamX 算法，经过应用共轭梯度的方法，可以更快地找到最优解，提高训练速度。

5. 网格搜查：在大规模模型训练中，经过网格搜查来选用最优的超参数组合，可以提高模型的训练成果和精度。

以上这些算法在详细经常使用时，须要依据模型的类型、数据的特点和功能需求启动选用和调整。

几种罕用最优化方法

学习和上班中遇到的大多疑问都可以建模成一种最优化模型启动求解，比如咱们如今学习的机器学习算法，大部分的机器学习算法的实质都是建设优化模型，经过最优化方法对指标函数（或损失函数）启动优化，从而训练出最好的模型。

经常出现的优化方法(optimization)有梯度降低法、牛顿法和拟牛顿法、共轭梯度法等等。

1. 梯度降低法（Gradient Descent）梯度降低法是最早最便捷，也是最为罕用的最优化方法。

梯度降低法成功便捷，当指标函数是凸函数时，梯度降低法的解是全局解。

普通状况下，其解不保障是全局最优解，梯度降低法的速度也未必是最快的。

梯度降低法的优化思维是用以后位置负梯度方向作为搜查方向，由于该方向为以后位置的最快降低方向，所以也被称为是”最速降低法“。

最速降低法越接近指标值，步长越小，行进越慢。

梯度降低法的缺陷：（1）接近极小值时收敛速度减慢; （2）直线搜查时或许会发生一些疑问；（3）或许会“之字形”地降低。

在机器学习中，基于基本的梯度降低法开展了两种梯度降低方法，区分为随机梯度降低法和批量梯度降低法。

比如对一个线性回归（Linear Logistics）模型，假定上方的h(x)是要拟合的函数，J()为损失函数，是参数，要迭代求解的值，求解进去了那最终要拟合的函数h()就进去了。

其中m是训练集的样本个数，n是特色的个数。

1）批量梯度降低法（Batch Gradient Descent，BGD）（1）将J()对求偏导，获取每个theta对应的的梯度： (2）由于是要最小化危险函数，所以按每个参数的梯度负方向，来降级每个：（3）从上方公式可以留意到，它获取的是一个全局最优解，然而每迭代一步，都要用到训练集一切的数据，假设m很大，那么可想而知这种方法的迭代速度会相当的慢。

所以，这就引入了另外一种方法——随机梯度降低。

关于批量梯度降低法，样本个数m，x为n维向量，一次性迭代须要把m个样本所有带入计算，迭代一次性计算量为m*n2。

2）随机梯度降低（Stochastic Gradient Descent，SGD）（1）上方的危险函数可以写成如下这种方式，损失函数对应的是训练集中每个样本的粒度，而上方批量梯度降低对应的是一切的训练样本：（2）每个样本的损失函数，对求偏导获取对应梯度，来降级：（3）随机梯度降低是经过每个样原本迭代降级一次性，假设样本量很大的状况（例如几十万），那么或许只用其中几万条或许几千条的样本，就曾经将迭代到最优解了，对比上方的批量梯度降低，迭代一次性须要用到十几万训练样本，一次性迭代无法能最优，假设迭代10次的话就须要遍历训练样本10次。

然而，SGD随同的一个疑问是噪音较BGD要多，使得SGD并不是每次迭代都向着全体最优化方向。

随机梯度降低每次迭代只经常使用一个样本，迭代一次性计算量为n2，当样本个数m很大的时刻，随机梯度降低迭代一次性的速度要远高于批量梯度降低方法。

两者的相关可以这样了解：随机梯度降低方法以损失很小的一部分准确度和参与肯定数量的迭代次数为代价，换取了总体的优化效率的优化。

参与的迭代次数远远小于样本的数量。

对批量梯度降低法和随机梯度降低法的总结：批量梯度降低---最小化一切训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得危险函数最小，然而关于大规容貌本疑问效率低下。

随机梯度降低---最小化每条样本的损失函数，只管不是每次迭代获取的损失函数都向着全局最优方向，然而大的全体的方向是向全局最优解的，最终的结果往往是在全局最优解左近，实用于大规模训练样本状况。

2. 牛顿法和拟牛顿法（Newtons method &Quasi-Newton Methods）1）牛顿法（Newtons method）牛顿法是一种在实数域和双数域上近似求解方程的方法。

方法经常使用函数 f ( x )的泰勒级数的前面几项来寻觅方程 f ( x ) = 0的根。

牛顿法最大的特点就在于它的收敛速度很快。

详细步骤：首先，选用一个接近函数 f ( x )零点的x0，计算相应的 f ( x 0)和切线斜率 f ( x 0)（这里 f 示意函数 f的导数）。

而后咱们计算穿过点( x 0, f( x 0))并且斜率为 f ( x 0)的直线和 x 轴的交点的 x 坐标，也就是求如下方程的解：咱们将新求得的点的 x 坐标命名为 x 1，理论 x 1会比 x 0更接近方程 f( x ) = 0的解。

因此咱们如今可以应用 x 1开局下一轮迭代。

迭代公式可化简为如下所示：曾经证明，假设 f是延续的，并且待求的零点 x 是孤立的，那么在零点 x 周围存在一个区域，只需初始值 x 0位于这个临近区域内，那么牛顿法必然收敛。

并且，假设 f ( x )不为0, 那么牛顿法将具备平方收敛的功能. 粗略的说，这象征着每迭代一次性，牛顿法结果的有效数字将参与一倍。

下图为一个牛顿法口头环节的例子。

由于牛顿法是基于以后位置的切线来确定下一次性的位置，所以牛顿法又被很笼统地称为是切线法。

关于牛顿法和梯度降低法的效率对比：从实质下来看，牛顿法是二阶收敛，梯度降低是一阶收敛，所以牛顿法就更快。

假设更深刻地说的话，比如你想找一条最短的门路走到一个盆地的最底部，梯度降低法每次只从你以后所处位置选一个坡度最大的方向走一步，牛顿法在选用方向时，不只会思索坡度能否够大，还会思索你走了一步之后，坡度能否会变得更大。

所以，可以说牛顿法比梯度降低法看得更远一点，能更快地走到最底部。

（牛顿法眼光愈延久远，所以少走弯路；相对而言，梯度降低法只思索了部分的最优，没有全局思维。

）依据wiki上的解释，从几何上说，牛顿法就是用一个二次曲面去拟合你以后所处位置的部分曲面，而梯度降低法是用一个平面去拟合以后的部分曲面，理论状况下，二次曲面的拟合会比平面更好，所以牛顿法选用的降低门路会更合乎实在的最优降低门路。

注：白色的牛顿法的迭代门路，绿色的是梯度降低法的迭代门路。

牛顿法的优缺陷总结：好处：二阶收敛，收敛速度快；缺陷：牛顿法是一种迭代算法，每一步都须要求解指标函数的Hessian矩阵的逆矩阵，计算比拟复杂。

2）拟牛顿法（Quasi-Newton Methods）　拟牛顿法是求解非线性优化疑问最有效的方法之一，于20世纪50年代由美国Argonne国度试验室的物理学家所提进去。

Davidon设计的这种算法在过后看来是非线性优化畛域最具发明性的发明之一。

不久R. Fletcher和M. J. D. Powell证明了这种新的算法远比其余方法极速和牢靠，使得非线性优化这门学科在一夜之间一日千里。

拟牛顿法的实质思维是改善牛顿法每次须要求解复杂的Hessian矩阵的逆矩阵的缺陷，它经常使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。

拟牛顿法和最速降低法一样只需求每一步迭代时知道指标函数的梯度。

经过测量梯度的变动，结构一个指标函数的模型使之足以发生超线性收敛性。

这类方法大大优于最速降低法，尤其关于艰巨的疑问。

另外，由于拟牛顿法不须要二阶导数的消息，所以有时比牛顿法更为有效。

如今，优化软件中蕴含了少量的拟牛顿算法用来处置无解放，解放，和大规模的优化疑问。

详细步骤：　拟牛顿法的基本思维如下。

首先结构指标函数在以后迭代xk的二次模型：这里Bk是一个对称正定矩阵，于是咱们取这个二次模型的最优解作为搜查方向，并且获取新的迭代点：其中咱们要求步长ak 满足Wolfe条件。

这样的迭代与牛顿法相似，区别就在于用近似的Hesse矩阵Bk 替代实在的Hesse矩阵。

所以拟牛顿法最关键的中央就是每一步迭代中矩阵Bk的降级。

如今假定获取一个新的迭代xk+1，并获取一个新的二次模型：咱们尽或许地利用上一步的消息来选取Bk。

详细地，咱们要求从而获取这个公式被称为割线方程。

罕用的拟牛顿法有DFP算法和BFGS算法。

原文链接： Math] 经常出现的几种最优化方法 - Poll的笔记 - 博客园

速度模型的建构

速度、期间、途程三个量中，速度是最为笼统的，速度概念的建设就是一个建模的环节，教材经过生活情形的展现，让在校生在观察中发现消息，找到消息的特性，进而感知。

每分钟行驶的米数和每小时行驶的米数称为速度，但关于速度终究是什么，在校生依然只知其一，不知其二，由于这样建构进去的只是含糊的生活意识，是一种基于生活情境地“告知”。

笔者以为，速度模型的建构须要四个档次。

一、生活中的认知师:速度这个词据说过吗？在哪里据说过？在校生1:上体育课时，教员说我跑得比他快。

在校生2:蜗牛的速度很慢。

在校生3:我觉得汽车在高速上传驶的很快，就问爸爸有多快，爸爸说每小时90千米……。

速度是什么？在孩子眼中，速度是示意物体静止快慢的量。

二、抵触中的思索师:我和班里跑得最快的同窗来一场较量，你们觉得谁的速度更快一些呢？在校生意见不一致。

师:怎样比？在校生思索后。

找到了两种比法:一是相反的期间里，谁跑得远谁快，二是跑雷同的距离，谁用的期间短谁就跑得快。

速度的大小与什么无关。

在校生的回答只管隐隐约约，但行程疑问中与速度相关的两个量，他们都能用自己的话表白进去:期间、还有“跑过的距离”。

三速度概念的建构师:假设期间不一样，途程也不一样，速度就没方法比了，留白思索，思索小组探讨基于有阅历在校生能够说出算一算，“求相反期间里的途程”。

此时速度这个笼统的概念曾经跃然纸上，平均每小时或许每分钟走过的途程及单位期间里走过的途程就是速度。

小结，速度是什么？示意快慢，这么快慢翻译成书面言语就是单位期间里走过的途程。

四、概念模型的深化速度单位与在校生以前学过的长度，品质单位不同，他是一个分解单位，从概念上定义单位，这样的定义在校生能接受吗？正当创设疑问情形。

引发认知抵触能够协助在校生了解它发生的必要性。

出示:三（1）班体育教员和小军同窗启动了一场较量，教员的速度是4米，小军的速度是200米。

小军更快，“这两个数据差得也太大了”，在校生纷繁示意无法能。

少顷，有在校生看出了端倪。

在校生1:说错了，错了！速度的单位怎样会是米呢？在校生2:是的，应该既有途程，也有期间才对。

师:可以怎样改一改呢？在校生:教员的速度是4米/秒，小军的速度是200米/分。

“假设。

常识是一棵树，那么，在校生与生活中取得的阅历便是树赖以生活的土壤了”，在开掘生活阅历的基础上，设计四个档次的教学，环环相扣，层层深化速度的模型，就这样在阅历的始终风波中得以建构。

数学是不用教的，只须要疏导在校生将它表白进去，记载进去就可以了，这样的疏导其实就是阅历的再现与共鸣。