UniRL 文档
Agents

Agent 索引

使用 UniRL 文档作为 coding-agent 上下文时从这里开始。

本页面向人类阅读,帮助你理解 agent 应该如何读 UniRL。/llms.txt 是给工具和 agent 发现文档用的机器入口,不应该再拆成一个新的 docs category。

Agent 如何使用这些文档

Agent 应该把文档当成 routing layer,而不是源码替代品:

  1. 先打开 /llms.txt/md/agents/index.md,发现当前维护中的文档入口。
  2. 根据下面的任务表,选择最接近的页面和 package README。
  3. 修改前继续读附近源码实现。
  4. 需要局部上下文时优先用 /md/<docs-slug>/index.md,只有需要单文件 corpus 时再用 /llms-full.txt

因此 docsite 里只需要突出 Agent 索引/llms.txt 保持为根级机器入口。

基本原则

  • 维护中的训练入口是 python -m unirl.train_diffusion --config-name=<domain>/<recipe>(以及 train_vlm / train_pe / train_unified_model)。
  • 分桶的 examples/<domain>/<recipe>.yaml 文件是权威配置面。
  • package README 是离代码最近的局部 contract。
  • 不要从 stale scratch docs 或 ignored local files 推断运行行为,除非用户明确指向它们。

按任务阅读

任务先读
运行或验证 recipe/zh/docs/getting-started/first-run,然后 examples/ 下的启动器
理解配置/zh/docs/configuration/hydra,然后 unirl/config/README.md
选择实验/zh/docs/configuration/experiments,然后 examples/<domain>/<name>.yaml
理解 runtime flow/zh/docs/architecture/overview,然后 unirl/README.md
修改 rollout engineunirl/rollout/README.md
开发 train stack 或 training backend/zh/docs/architecture/trainer-v2,然后 unirl/train/readme.md
修改 GRPO / NFT / DPPO lossunirl/algorithms/README.md
修改 SDE kernel、sigma schedule 或 log-prob pathunirl/sde/README.md
修改 reward/zh/docs/guides/rewards,然后 unirl/reward/README.md
调试 trainer-to-rollout weight syncunirl/distributed/weight_sync/README.md
准备 prompt 数据/zh/docs/guides/data-preparation
添加数据或模型 artifact/zh/docs/guides/data-and-models
调试多机运行/zh/docs/guides/multinode

Agent Markdown 入口

这些入口固定输出英文,避免中英混杂。入口说明集中放在这里,不再散落到每个 docs 页面:

Endpoint用途
/llms.txtcompact discovery index and access guidance
/llms-full.txtfull English Markdown corpus
/md/agents/index.mdEnglish Agent Index
/md/configuration/hydra/index.mdEnglish Hydra configuration page

安全编辑策略

  1. 根据任务表定位 owner package。
  2. 阅读对应 package README 和最接近的现有实现。
  3. 优先使用 typed config dataclass,不做 ad hoc string parsing。
  4. 只有 runnable behavior 变化时才新增或更新 recipe。
  5. 启动作业前先做 Hydra compose check。

目录