缺乏高质量的数据已成为一种瓶颈,该瓶颈限制了持续学习和大型语言模型(LLM)的改善。为此,元提出了一种称为自动游戏语言(LSP)的新增强学习方法(RL)。这可以通过允许在不依赖其他数据的情况下克服模型来消除本单元。论文中的链接:https://arxiv.org/abs/2509.07414这种方法考虑了模型作为竞争游戏中的性能的能力,通过允许模型播放并使用框架设置理论框架来生成更强大的策略。在遵守指令的参考点中,使用的3,2-3B构造的实验表明,以前训练的模型不仅可以单独使用AutoCuzados提高挑战性任务的性能,而且比基于数据的参考模型更有效。 AutoDgame:在LS Frameworkp中,挑战者和解决问题的人都获得了两个不同的身份M的动态冲突在同一LLM先前训练中。其中,挑战者负责生成咨询内容,并旨在设计更具挑战性的说明,以“强调”解决问题并最大程度地减少任务奖励。为了使挑战者能够产生有效的咨询,研究团队设计了一个特殊的()快速词,清楚地要求生成入口以满足任务类型和测试模型的功能。它们可以是简单的说明,或者“压力测试”内容。 “求解器”负责响应挑战者产生的咨询,目的是提供高质量的响应并最大化任务奖励。基于人类偏好的结果或LAS主观评估的验证,这里的回报可以是客观得分。图:LSP代理在Challenger模式和问题解决模式下均执行。随着问题解决者继续学习优化快速响应,CH所有工程师都应该完成更具挑战性的任务。这两种模式均由相同的模型实现,该模型支持培训继续并生成不断提高质量的自动数据。挑战者与解决方案之间存在冲突的关系只是造成了“难度”,后者“解决问题”是为了在连续冲突中更好地实现双方能力的所有努力。为了进行“自我游戏”稳定和高效的过程,LSP引入了两个中心技术支持。组(GRPO)的相对策略优化:在每次训练迭代期间,挑战者会产生N Quera。对于每次咨询,问题求解都会产生不同的答案,每个答案都会收到相应的任务奖励。通过计算“小组价值”,它不仅提供了巫师响应质量的参考点,而且还可以帮助设备量化挑战者想要优化的难度指标。 KL DivERGENCE重击:该技术主要用于防止模型“关闭”。一方面,它确保了受过训练的模型不会偏离初始参考模型,从而避免了较大的性能波动。另一方面,它可以防止挑战者对毫无意义的“冲突”产生语义咨询,从而确保培训过程的有效性。从LSP-Zero到LSP:长期,稳定的自主培训,研究团队提出了LSP-LSP-Zero的基本版本。这是一个零纯游戏模型,SE仅基于挑战者和解决问题的培训所促进的训练,而没有额外的质量限制。但是,他们在实验中发现LSP-Zero具有明显的缺陷。随着培训的进行,模型更有可能属于“敌对和毫无意义的游戏”。例如,当使用开放式奖励模型(奖励模型 – debert-v3-large-v2)时,解决问题的经验CES“奖励的盗版”,无论挑战者是哪种类型的咨询,都会以Python代码对奖励规则滥用脱发,并避免培训以提高能力。为了指导游戏以获得高质量的互动体验,研究人员来了L.实现的SP-Cero,并推出了具有自我控制机制的LSP版本:质量自动化的质量引入。参考模型到达LTO“问题解决方案响应挑战者 +问题”,并将此分数添加到双方的最终奖励中。使用7点自动奖励的奖励标准对七维相互作用的质量进行全面评估。只有从指令清楚地确定用户任务时。只有订单清晰,混凝土和结构良好。用户可以理解解决问题的响应。只有答案解决了大多数用户的问题(这不是完全必要的)。答案w生病有效地反应您问题的中心要素。答案清晰,简洁,有条理和有用。仅适用于用户喜欢的表格和样式。在参加自动奖励之后,LSP的“自动加拿大”不再仅仅是零和游戏,而是改变“高质量增益”的变化。 Thechallengers必须产生有价值的咨询,问题的问题必须提供质量的答案,并且双方将共同努力以获得高质量得分。这种改进完全解决了毫无意义的冲突问题,并允许模型实现长期,稳定的自主培训。为了验证LSP的有效性,研究团队根据Alpacaball的基准和Call-3.2-3B建立了两组实验,作为基本模型。首先,他们将数据的LSP与LSP-Zero作为一种自我调节消融实验进行了比较,并将它们与基于羊驼数据训练的RL训练的模型进行了比较。这个经验的目的精神将只有在RL数据不完全存在时,可以通过自动amia策略来分析数据库中的培训。该图显示了GPO(数据支持,黄色条形图),LSP-Zero,LSP(数据支持,红色和蓝色条形图对应于Alpacebal参考测试的基础。比较Call-3.2-3B-Instrust类型的增益率。所有Algor algor algor algor algor LSP-Zero,使用LSP-SPS的绩效和LSP的绩效均有效。与GRPO相当,LSP模型具有LSP模型的更多优势。Tales任务,例如Vicuna数据集,专门研究对话的开放指导,LSP-Zero和LSP模型的工作量显着,比基础和GRPO模型更加好。R场景。图|它显示了针对初始训练模型(基于组数据,黄色条形图训练),它显示了Alpacaball参考点上LSP-Zero和LSP(无数据图形,红色和蓝色条形图)的维多利亚速率。总的来说,LSP超过了小组,并且在Vicuna的任务中拥有很大的优势。特定增益率为GRPO 40.9%,LSP-Zero 40.0%和LSP 43.1%。灰色连续线显示了基本模型本身的获胜率。此外,研究团队还进行了另一个实验。首先,训练小组模型,将模型用作初始模型,然后继续使用LSP培训。结果表明,根据现有性能,LSP可以进一步提高性能。 LSP对Instrust Llama-3.2-3B的一般胜利率从40.9%增加到43.1%。在Vicuna模型中,LSP-Zero将GRPO胜利率从28.7%提高到36.3%,LSP额外达到46.3%。但是,LSP方法也h由于不便。在主要使用ChatBot用户类型的Koala数据集中,LSP性能略低于GPO。研究小组分析了这一点,因为LSP产生的咨询更加结构化和订购,而Koala数据集中的对话场景却少巧合,并且未来的工作需要优化咨询生成的多样性。在没有在数据台上培训的情况下,对新的可能的LSP提出的建议仅仅是对大型模型培训解决的问题的依赖性,但也可以从技术层面验证“无数据培训”的生存能力。大型模型的未来发展将带来多重价值。例如,在培训成本方面,无需收集,清洁或标记数据。这大大减少了人力和资源在数据收集过程中的投资。在极少数数据应用方案中,LSP可以允许连续优化模型,而无需依赖外部DATA。通过“自我置换 +自我控制”机制,该模型可以独立训练很长时间并实现独立的进化。研究小组认为,当AI“体现”并可以收集独特的经验数据时,这种自动框架可以通过扩展已知Imimiento来证明巨大的潜力。汇编:如果小纽需要抑制或发送文章,请直接留言给您的官方帐户
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。