2024欧洲杯(中国区)官网-投注app入口

新闻动态 你的位置:2024欧洲杯(中国区)官网-投注app入口 > 新闻动态 > 欧洲杯app作家还进行了数据增强-2024欧洲杯(中国区)官网-投注app入口

欧洲杯app作家还进行了数据增强-2024欧洲杯(中国区)官网-投注app入口

发布日期:2025-04-13 13:24    点击次数:57

欧洲杯app作家还进行了数据增强-2024欧洲杯(中国区)官网-投注app入口

o1 不是通向大模子推理的独一说念径!欧洲杯app

MIT 的新商榷发现,在测试时对大模子进行训练,不错让推理水平大幅提高。

在挑战超难的 ARC 任务时,准确率最高可提高至原本的 5.83 倍。

这么的发达不仅优于 GPT-4 和 Claude,如果与其他推理方法相汇集,还能稀奇东说念主类的平均水准。

OpenAI o1 团队成员Noam Brown暗意,o1 的大范围狡计可能不是最佳的方法,很慷慨看到有学者在提高推理才智上探索新的方法。

在测试中训练模子

不同于传统的先训练后测试格式,测试时训练(Test-Time Training,TTT)在部署阶段濒临新的测试样本时,抵抗直用训练好的模子去推理。

在推理之前,测试样本自己捎带的信息,和会过快速的训练经由被用于治疗模子参数。

总体来说,TTT 经由中一共有三个枢纽阶段——训练数据生成、模子稳妥范式想象以及推理阶段的计谋。

数据生成的中枢是将测试任务中蕴含的输入输出对干系,通过数据增强的表情最大戒指地愚弄,可具体分为两个要领。

率先是基于 leave-one-out 构造新的任务。

关于包含 K 个输入输出对的测试任务,按序将每个样本留出行为测试样本,其余 K-1 个行为训练样本 , 由此构造出 K 个新的 TTT 训练任务。

这么就不错从一个测试任务启航,构造出 K 个结构一致但本体互补的新任务,从而现实了 TTT 训练数据。

在此基础上,作家还进行了数据增强,主要包括对输入输出施加种种几何变换,以及打乱训练样本对的递次。

经过这一步,TTT 训练集的范围不错得到显耀扩大。

通盘 TTT 数据构造经由可高度自动化,不依赖东说念主工标注。

愚弄构造好的 TTT 数据集,就不错对预训练好的言语模子进行测试时训练。

议论到测试时的资源限制,作家接收了参数高效的 LoRA,为每个测试任务学习一组寂寞的 adapter 参数,附加在预训练模子的每一层之上,通过一个低秩矩阵与原始权重相乘起到搬动作用。

经由中还特地加入了对扫数前缀序列的掂量,贪图是通过在各式长度的演示样本上都狡计失掉,饱读动模子尽早地从极少信息中追忆出详细规矩,从而提高鲁棒性。

临了,为了终了 TTT 效果的最大化,作家在推理阶段应用了数据增强和集成学习计谋。

推理经由中,先愚弄一系列预界说的几何变换算子(如旋转、翻转等)现实原始输入,生成些许等价视角下的输入变体。

之后将每个变体输入并行地送入 LoRA-tuned 模子,寂寞完成掂量,然后再对王人和归附到原始输入空间,由此得到一构成对的掂量。

在成对掂量的基础上,通过分两层投票的表情完成集成涌现:

第一层在每种变换里面进行投票,选出置信度最高的 Top-3 个掂量 ;

第二层在不同变换的 Top-3 掂量之间进行全局投票,选出最终的 Top-2 行为输出。

这一推理计谋,既通过数据增强引入了输入的种种性,又用分层投票的表情对不同起原的掂量进行了结构化的组合,进一步提高了 TTT 方法的效果。

ARC 任务准确率最高升至 6 倍

为了评估 TTT 方法的效果,商榷团队以 8B 参数的 GPT-3 行为基础模子进行了测试。

如果不使用 TTT 仅进行微调,模子在 ARC 数据集上的准确率只消 18.3%,加入 TTT 后提高到 47.1%,增长率达到了 157%。

另外,作家还从 ARC 数据麇集就地选拔了 80 个任务行为子集进行了测试。

测试发现,TTT 方法关于 1B 模子的提高效果愈加显明,治疗后模子的准确率接近治疗前的 6 倍。

何况在治疗前后,1B 和 8B 两个范围的模子之间的相对差距也在松开。

进一风景,作家还将 TTT 方法与之前在 ARC 任务上得回优异收获的BARC(Bootstrapping Approach for Reward model Construction)方法进行了比拟和汇集。

具体来说,作家率先寂寞动手这两个系统,得到它们在每个测试任务上的输出。

如果两者输出齐全一致,则平直观得推理结果是正确的;

如果输出不一致,则看 BARC 是否粗略生成详情的、独一遮掩扫数测试样本的解题圭臬,淌若则觉得 BARC 的输出更可靠;

反之,如果 BARC 生成了多个候选圭臬但无法详情最优解,或者干脆无法生成任何满足敛迹的圭臬,则觉得 TTT 的输出更可靠。

两种表情联结使用后,得回了 61.9% 的 SOTA 收获,还是越过了东说念主类的平均水平。

One More Thing

凭证作家在推文中的先容,在这篇论文发布前,一个叫作念 MindsAI 的团队还是发现使用了交流的技艺。

愚弄 TTT 技艺,该团队还是用 58% 的正确率得回了 ARC 挑战的第别称。

作家的论文发布之后,MindsAI 团队指点者 Jack Cole 也发文进行了祝福:

很慷慨,咱们掀翻了这场对 TTT 的兴味风暴。

同期,Jack 还保举了另别称商榷 TTT 的学者——斯坦福大学华东说念主博士后Yu Sun,暗意他的商榷值得被热心。

Sun 的个东说念主主页披露,他针对测试时训练进行了无数商榷,筹办效果入选过 ICML、NeurIPS、ICLR 等多个顶级会议。

论文地址:

https://ekinakyurek.github.io/papers/ttt.pdf欧洲杯app



Powered by 2024欧洲杯(中国区)官网-投注app入口 @2013-2022 RSS地图 HTML地图