
高质量数据的不足,已经成为限制大语言模型(LLM)持续学习、提升能力的瓶颈。
为此,Meta 提出了一个名为“语言自我博弈”(Language Self-Play,LSP)的强化学习(RL)新方法,通过让模型在不依赖额外数据的情况下进行自我改进,从而消除了这种依赖性。

论文链接:https://arxiv.org/abs/2509.07414
这一方法利用了自我博弈(se

高质量数据的不足,已经成为限制大语言模型(LLM)持续学习、提升能力的瓶颈。
为此,Meta 提出了一个名为“语言自我博弈”(Language Self-Play,LSP)的强化学习(RL)新方法,通过让模型在不依赖额外数据的情况下进行自我改进,从而消除了这种依赖性。

论文链接:https://arxiv.org/abs/2509.07414
这一方法利用了自我博弈(se
 
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
             
            