UniRL 文档

UniRL 文档

面向研究人员和工程师的 UniRL 中文文档。

UniRL 是一个面向统一多模态生成模型的分布式强化学习框架。它用基于 Ray 的 worker group、Hydra 实验配方、可组合训练栈和可插拔 rollout engine 训练扩散与自回归模型。

本站现在支持两类入口:

  • 人类阅读:英文页面在 /en/docs,中文页面在 /zh/docs
  • Agent 阅读:先看 Agent 索引 判断任务该进入哪组文档、README 和源码。

运行训练

每个领域都有自己的入口,驱动方式一致:

python -m unirl.train_diffusion --config-name=<domain>/<recipe>   # diffusion 图像/视频
python -m unirl.train_vlm       --config-name=<domain>/<recipe>   # 自回归 VLM / LLM
python -m unirl.train_pe        --config-name=<domain>/<recipe>   # prompt-enhancer (PE)
python -m unirl.train_unified_model       --config-name=<domain>/<recipe>   # HunyuanImage3(AR + diffusion 混合)

<recipe> 是分桶的 examples/ 目录树下的一个自包含 YAML 文件名(按 <domain>/<recipe> 寻址,不含 .yaml),例如:

python -m unirl.train_diffusion --config-name=diffusion/sd3_trainside

任意字段都可用 Hydra 的 key=value 语法在命令行覆盖,例如 num_devices=8。每个 recipe 都是 model、algorithm、rollout engine、placement、reward、sync 和 batch geometry 的 source of truth。

examples/ 下的 shell 启动器应保持精简——只负责准备环境变量、启动 Ray、传入 recipe 名和 Hydra overrides,真正的 recipe 语义放在 YAML 中。规范示例见 examples/run_experiment_single_node.shexamples/run_experiment_multinode_taiji.sh

更细的 runtime 和模块契约位于各文档分区侧边栏中内嵌的 package 页面,由源码旁边的 README 文件生成。

Agent 如何使用本站

/llms.txt/llms-full.txt/md/<slug>/index.md 是根级机器入口,不是新的文档分类。它们固定输出英文,避免中英混杂影响检索和上下文质量;人类在 docsite 里只需要从 Agent 索引 理解这些入口的职责。

推荐阅读路径

如果你是第一次使用:

  1. 阅读 安装
  2. 阅读 首次运行
  3. 通过 实验配方 选择 recipe。
  4. 修改代码前阅读 Agent 索引

阅读路径

目录