UniRL 文档

UniRL 是一个面向统一多模态生成模型的分布式强化学习框架。它用基于 Ray 的 worker group、Hydra 实验配方、可组合训练栈和可插拔 rollout engine 训练扩散与自回归模型。

本站现在支持两类入口：

人类阅读：英文页面在 /en/docs，中文页面在 /zh/docs。
Agent 阅读：先看 Agent 索引判断任务该进入哪组文档、README 和源码。

运行训练

每个领域都有自己的入口，驱动方式一致：

python -m unirl.train_diffusion --config-name=<domain>/<recipe>   # diffusion 图像/视频
python -m unirl.train_vlm       --config-name=<domain>/<recipe>   # 自回归 VLM / LLM
python -m unirl.train_pe        --config-name=<domain>/<recipe>   # prompt-enhancer (PE)
python -m unirl.train_unified_model       --config-name=<domain>/<recipe>   # HunyuanImage3（AR + diffusion 混合）

<recipe> 是分桶的 examples/ 目录树下的一个自包含 YAML 文件名（按 <domain>/<recipe> 寻址，不含 .yaml），例如：

python -m unirl.train_diffusion --config-name=diffusion/sd3_trainside

任意字段都可用 Hydra 的 key=value 语法在命令行覆盖，例如 num_devices=8。每个 recipe 都是 model、algorithm、rollout engine、placement、reward、sync 和 batch geometry 的 source of truth。

examples/ 下的 shell 启动器应保持精简——只负责准备环境变量、启动 Ray、传入 recipe 名和 Hydra overrides，真正的 recipe 语义放在 YAML 中。规范示例见 examples/run_experiment_single_node.sh 和 examples/run_experiment_multinode_taiji.sh。

更细的 runtime 和模块契约位于各文档分区侧边栏中内嵌的 package 页面，由源码旁边的 README 文件生成。

Agent 如何使用本站

/llms.txt、/llms-full.txt 和 /md/<slug>/index.md 是根级机器入口，不是新的文档分类。它们固定输出英文，避免中英混杂影响检索和上下文质量；人类在 docsite 里只需要从 Agent 索引理解这些入口的职责。

阅读路径

安装和启动：先读安装和首次运行。
理解整体架构：读概览。
修改代码前：读 Agent 索引，再进入对应 README contract。

UniRL 文档

运行训练

Agent 如何使用本站

推荐阅读路径

阅读路径

目录