1行代码矫正直模子磨真金不怕火，Llama磨真金不怕火速率升至1.47倍，华东说念主团队出品

栏目分类

热点资讯

怎样灵验使用CDN正式处事器进步网站安全与踏实性

Java绘制圆形图形教程：快速上手与技巧剖析

沈阳租直播用电脑房钱些许

服务文化丨泽州农商银行：智启厅堂新六合惠暖民生千万家

腾讯，大手脚！｜深商

你的位置：科技前沿网 > 创新应用 > 1行代码矫正直模子磨真金不怕火，Llama磨真金不怕火速率升至1.47倍，华东说念主团队出品

创新应用

1行代码矫正直模子磨真金不怕火，Llama磨真金不怕火速率升至1.47倍，华东说念主团队出品

发布日期：2024-12-24 06:27 点击次数：203

1行代码矫正直模子磨真金不怕火，Llama磨真金不怕火速率升至1.47倍，华东说念主团队出品

克雷西发自凹非寺

量子位 | 公众号 QbitAI

唯有改一滑代码，就能让大模子磨真金不怕火效用普及至1.47倍。

领有得州大学奥斯汀分校配景四名华东说念主学者，提议了大模子磨真金不怕火优化器Cautious Optimizers。

在提速的同期，Cautious概况保证磨真金不怕火效用不出现圆寂，而且言语和视觉模子都适用。

该优化器以哈密顿量和下落能源学为表面基础，在加快的同期不影响料理特质。

作家在600M到1B不同参数限度的Llama模子上进行了考验，取得了最高47%的加快率。

该磋磨关系代码也曾开源，在GitHub上有使用才气的详备栽种。

一滑代码矫正直模子磨真金不怕火

Cautious Optimizers在PyTorch当中加多的一滑代码，中枢想路是引入已矣一种守密机制，从而幸免参数更新的标的与刻下梯度标的违反。

因为这两个标的一朝不一致，就有可能导致圆寂函数暂时加多，形成料理速率的减缓。

不外作家并未在标的不一致的开始问题上过度纠结，而是引入了一种判断机制，在参数更新之前加多一步计较，从而过滤掉标的不一致的情形。

这也恰是上头代码的径直作用。

△GD：梯度下落，GDM：带动量的梯度下落，C-GDM：本技俩

具体来说，加入的两行代会对u和g两个向量求内积，u向量对应优化器给出的参数更新标的，而g向量对应刻下技艺的梯度标的。

作家诡计了一个对都掩码函数ϕ，当u和g的内积小于0时（即标的不一致），ϕ的输出为0向量；当内积大于就是0时，ϕ的输出为全1向量。

而一朝ϕ为零向量时，w_t计较式中含u的项也会变为零向量，导致此项更新被跳过。

这么就不错判断参数更新和梯度标的是否一致，淌若不一致则不会用于参数更新，幸免了磨真金不怕火历程中圆寂函数的回升。

磨真金不怕火效用普及47%

为了评估Cautious Optimizers的具体效用，作家辞别在言语模子Llama和视觉模子MAE上进行了考验。

作家中式了60M、100M、350M和1B四种参数限度的Llama模子，在C4语料库上进行预磨真金不怕火。

优化器采用了AdamW和Lion，以及它们对应的Cautious版块:C-AdamW和C-Lion，每个本质中进行1万步迭代。

适度C-AdamW和C-Lion在所有限度上都发达出表示的料理加快效用。

尤其是在1B限度上，比拟原版的AdamW和Lion，它们的样本效用辞别提高了47%和28%，这标明Cautious Optimizer能灵验减少磨真金不怕火震憾，使料理更舒适高效。

况且，Cautious Optimizer在所有情况下都取得了更低的困惑度，印证了其出色的泛化性能。

为了评估模子的骨子效用，磋磨者在语句匹配、文本蕴含、情谊分类等6个GLUE卑劣任务上测试了AdamW和C-AdamW优化后1B模子的发达,

适度标明，C-AdamW的平均得分比AdamW特出2%，在大大批任务上都取得了越过，诠释Cautious跳过部分参数更新的神色不会引起模子性能下落。

关于视觉模子，作家以ViT为主干集聚，在ImageNet-1K数据集上预磨真金不怕火了MAE模子。

由于视觉任务的极端性，磨真金不怕火历程采纳了迅速消灭图像块并重建的范式，因此优化成见是最小化重建罪恶，而非时常的分类圆寂。

作家对比了AdamW和C-AdamW的发达，即磨真金不怕火50轮后的最终重建罪恶，适度C-AdamW的罪举止0.5926，低于AdamW的0.6085。

一作曾在一周内复刻o1

本技俩是由四名华东说念主学者共同打造的。

第一作家Kaizhao Liang，是AI推理加快奇迹商SambaNova公司的又名高档ML工程师。

在o1模子发布一周内，该公司就推出了一个肖似o1模子想考历程的开源平替，主要作家恰是Liang。

其他三名作家是得州大学奥斯汀分校CS助理教训Qiang Liu，以及他的两名博士生，Lizhang Chen和Bo Liu。

此外，Liang的东说念主工智能硕士学位亦然从该校取得。

论文地址：

https://arxiv.org/abs/2411.16085GitHub：

https://github.com/kyleliang919/C-Optim

— 完 —

量子位 QbitAI · 头条号签约

关爱咱们，第一技艺获知前沿科技动态

上一篇：敬佩AI的力量：2024 AI 产物司理大会开启报名

下一篇：无东说念主自助KTV在三四线城市的千亿市集机遇