Agents

Agent 索引

使用 UniRL 文档作为 coding-agent 上下文时从这里开始。

本页面向人类阅读，帮助你理解 agent 应该如何读 UniRL。/llms.txt 是给工具和 agent 发现文档用的机器入口，不应该再拆成一个新的 docs category。

Agent 如何使用这些文档

Agent 应该把文档当成 routing layer，而不是源码替代品：

先打开 /llms.txt 或 /md/agents/index.md，发现当前维护中的文档入口。
根据下面的任务表，选择最接近的页面和 package README。
修改前继续读附近源码实现。
需要局部上下文时优先用 /md/<docs-slug>/index.md，只有需要单文件 corpus 时再用 /llms-full.txt。

因此 docsite 里只需要突出 Agent 索引；/llms.txt 保持为根级机器入口。

基本原则

维护中的训练入口是 python -m unirl.train_diffusion --config-name=<domain>/<recipe>（以及 train_vlm / train_pe / train_unified_model）。
分桶的 examples/<domain>/<recipe>.yaml 文件是权威配置面。
package README 是离代码最近的局部 contract。
不要从 stale scratch docs 或 ignored local files 推断运行行为，除非用户明确指向它们。

按任务阅读

任务	先读
运行或验证 recipe	`/zh/docs/getting-started/first-run`，然后 `examples/` 下的启动器
理解配置	`/zh/docs/configuration/hydra`，然后 `unirl/config/README.md`
选择实验	`/zh/docs/configuration/experiments`，然后 `examples/<domain>/<name>.yaml`
理解 runtime flow	`/zh/docs/architecture/overview`，然后 `unirl/README.md`
修改 rollout engine	`unirl/rollout/README.md`
开发 train stack 或 training backend	`/zh/docs/architecture/trainer-v2`，然后 `unirl/train/readme.md`
修改 GRPO / NFT / DPPO loss	`unirl/algorithms/README.md`
修改 SDE kernel、sigma schedule 或 log-prob path	`unirl/sde/README.md`
修改 reward	`/zh/docs/guides/rewards`，然后 `unirl/reward/README.md`
调试 trainer-to-rollout weight sync	`unirl/distributed/weight_sync/README.md`
准备 prompt 数据	`/zh/docs/guides/data-preparation`
添加数据或模型 artifact	`/zh/docs/guides/data-and-models`
调试多机运行	`/zh/docs/guides/multinode`

Agent Markdown 入口

这些入口固定输出英文，避免中英混杂。入口说明集中放在这里，不再散落到每个 docs 页面：

Endpoint	用途
`/llms.txt`	compact discovery index and access guidance
`/llms-full.txt`	full English Markdown corpus
`/md/agents/index.md`	English Agent Index
`/md/configuration/hydra/index.md`	English Hydra configuration page

安全编辑策略

根据任务表定位 owner package。
阅读对应 package README 和最接近的现有实现。
优先使用 typed config dataclass，不做 ad hoc string parsing。
只有 runnable behavior 变化时才新增或更新 recipe。
启动作业前先做 Hydra compose check。

Geneval MMCV 设置

Geneval/OpenMMLab workflow 所需的可选 MMCV 与 MMDetection 安装说明。

Agent 任务配方

常见 coding-agent 任务对应的文件、检查和风险。

目录

Agent 如何使用这些文档基本原则按任务阅读 Agent Markdown 入口安全编辑策略