SWEET-RL – Meta 推出的多轮强化学习框架

SWEET-RL是什么 SWEET-RL是Meta推出的多轮强化学习框架,专门用在训练大型语言模型(LLM)代理进行协作推理任务。SWEET-R基于训练时的额外信息(如参考解决方案)优化“批评者”模型...
1年前
04,7150