一、介绍
AgentGym-RL 框架:面向大模型智能体、在多样真实环境中“从零”进行多轮交互式强化学习的统一训练平台。
AgentGym-RL 框架:面向大模型智能体、在多样真实环境中“从零”进行多轮交互式强化学习的统一训练平台。
二、主要功能
-
多环境统一接入:内置网页导航、文字游戏、具身控制、科学探索、深度搜索等 14 类场景、89 项任务;每个环境封装为独立 HTTP 微服务,可并行调用。
-
端到端强化学习管线:集成经验缓存、在线采样、奖励计算、策略更新、模型热启动等完整闭环,支持 PPO、A2C、SAC 等主流算法。
-
ScalingInter-RL 课程训练:渐进式增加单回合最大交互轮数,先“短交互学技能”后“长交互练策略”,自动平衡探索与利用,缓解长程训练崩溃。
-
模块化可插拔设计:环境、代理、训练三大模块解耦;用户可只替换环境、只改写奖励或只升级模型,无需改动其余部分。
-
一键复现实验:提供标准化观测/动作空间、统一 ReAct 轨迹格式、开源基准 AgentEval 与专家轨迹 AgentTraj,支持“零代码”复现论文结果。
三、技术原理
-
多轮交互建模:将 LLM 视作策略 π(a|s,h),状态 s 由环境返回,历史 h 为已执行动作与观测的拼接,动作为可解析文本(点击、代码、控制命令)。
-
奖励延迟处理:对长流程任务采用“分段累积+终点奖励”混合方式,支持手工奖励、规则奖励与可学习奖励函数混合。
-
分布式异步采样:中央控制器把环境实例分布到不同容器,批量生成轨迹后推送到共享经验池;训练节点异步拉取数据并更新模型,实现高吞吐。
-
课程与早停:ScalingInter-RL 按“交互长度”维度划分课程,每阶段设定最大步数与性能阈值,达标后自动进入下一阶段,防止过早陷入局部策略。
-
正则与稳定:引入 KL 惩罚、价值函数裁剪、梯度范数截断、熵奖励等,保证 7 B~13 B 大模型在 1000+ GPU-hours 训练中不发散。
四、应用场景
-
网页与桌面 GUI 自动化:订票、报表填报、信息爬取。
-
游戏与娱乐:文字冒险、沙盒建造、NPC 策略进化。
-
科研辅助:实验步骤规划、文献自动检索、数据可视化脚本生成。
-
机器人/具身智能:室内导航、多臂协作、指令-动作对齐。
-
工具调用型对话:复杂问答需要调用搜索引擎、计算器、代码解释器等多工具。
五、使用方法
-
环境准备:
git clone --recursive https://github.com/WooooDyy/AgentGym-RLcd agentenv && pip install -e . -
启动环境服务:
python -m agentenv.run_server --env_name webshop --port 8000 -
配置代理:在 YAML 中指定模型路径、温度、最大生成长度、提示模板。
-
启动训练:
python scripts/run_rl.py --config configs/rl/webshop_ppo_7b.yaml
支持单机多卡或多机多卡,自动调用 DeepSpeed/FSDP。 -
评估与可视化:
python scripts/eval.py --ckpt path/to/checkpoint --suite AgentEval
结果自动输出成功率、平均步数、奖励曲线及 HTML 回放。
六、适用人群
-
大模型强化学习研究者
-
智能体与机器人方向博士生/导师
-
企业自动化、RPA、游戏 AI 算法团队
-
希望用“交互式经验”提升 LLM 决策能力的开发者
七、优缺点介绍
-
优点
-
真正“零监督微调”即可启动 RL,降低数据标注成本。
-
环境丰富,覆盖数字与物理两大空间,任务难度梯度完整。
-
模块化设计,科研与工程可分别定制,易于二次开发。
-
训练稳定,已验证 7 B 模型在 27 项任务上超越 GPT-4-turbo 等商用模型。
-
-
缺点
-
资源消耗高,完整复现实验需数百 GPU 小时。
-
环境安装依赖多(Docker、浏览器、X-server 等),初学者配置门槛高。
-
当前仍以英文任务为主,中文环境与奖励函数需自行扩展。
-
八、分类标签
强化学习框架、大语言模型智能体、多轮交互决策、自动化训练平台、科研开源工具
强化学习框架、大语言模型智能体、多轮交互决策、自动化训练平台、科研开源工具

wechatferry是一个用于微信小程序的自动化测试与部署的工具,旨在提高小程序开发效率与测试覆盖率。