乐融配破解RL样本效率难题！让AI一次性提炼环境常识，后续零调用成本

南京大学章宗长俞扬&腾讯叶德珩团队投稿

量子位 | 公众号 QbitAI

在经典RL流程里，智能体只有在撞了南墙、遍历海量状态后，才能慢慢学到怎么完成任务，样本效率极低。过去也有人引入大模型提示，但通常每换一个任务就得重新写prompt、再调一次API，既贵又难迁移。

来自南京大学章宗长俞扬团队和腾讯叶德珩团队的研究者们注意到，GPT这类大模型已经内化了大量日常常识，如果能一次性让它总结出“在这个环境下普遍有用的行为准则”，那么后续所有任务都可以共享同一份知识，省去反复调用。

背景知识是怎么“炼”出来的？

什么是“环境背景知识”？通俗来说，就是对整个环境有用的常识，而不局限于某个具体任务。

例如在迷宫类环境中“不要碰墙壁，绕开障碍物”，在生存游戏中“优先捡取食物保持存活”等经验，都属于对该环境通用有益的知识。有了这些知识，智能体在执行任何特定任务时都能更有效率地探索。

研究者用RND算法在环境里进行随机探索和学习，把看到的状态、动作都存下来当“原料”。这些轨迹不带任何任务标签，保证提炼出的知识足够通用。接下来把轨迹描述交给GPT，让它帮忙点评：“哪些行为更像是合理、聪明的？” 具体有三种提炼套路，分别对应三条技术路线（论文称BK-CODE、BK-PREF、BK-GOAL）。

BK-CODE让大模型直接写Python奖励函数，研究者迭代运行、再把结果反馈给GPT-4 改进，直到输出一段能稳定评价“好状态”与“坏状态”的代码。

BK-PREF把两段轨迹丢给GPT-4做“二选一”，随后用基于Bradley–Terry模型的偏好学习方法把这些偏好信息转化为奖励信号。

BK-GOAL请GPT-4根据轨迹列出可能的子目标（如“合成木镐”、“避开熔岩”），并在训练时计算当前状态与这些目标的相似度。

三条路线的共同点是：最后都会得到一个势函数[数学公式]，训练时额外加上形如[数学公式]的潜在奖励。根据经典理论，这样做不会改变原任务最优策略，而合理的势函数选择却能起到加快收敛的效果。最后，作者基于经典的PPO方法，在下游任务上加入奖励重塑（reward shaping）进行RL训练。

效果到底有多快？

论文在Minigrid和Crafter两个不同类型环境中进行了大量实验，验证了引入背景知识的奖励塑形对样本效率的提升效果。

在Minigrid的四个任务中（包括有的新目标物体类型和颜色是知识提取时未出现过的），三种变体均全面超越了现有的探索增强基线方法和基于语言的探索方法（如RND、NovelD等）。即使对于LLM从未“见过”的新任务类型，利用背景知识的智能体依然展现出明显优势，证明提取的知识确实具有任务无关性，可以泛化到新的目标。更难能可贵的是，提炼背景知识只需一次LLM调用，后续训练零 LLM调用成本。