你将参与的方向
精细操作 · Real-world RL(真机强化学习)· 闭环训练系统
面向真实环境与真实硬件,用强化学习/模仿学习等方法提升成功率、效率与泛化能力,并打通从数据到训练到部署的链路。
你会做什么?
- 真机强化学习与闭环实验
- 参与精细操作任务的 RL 训练、评测与迭代(抓取、放置、插入、对齐、整理等典型任务形态)
- 设计 reward / curriculum / 安全约束 / 评测指标,提升收敛速度与稳定性
- 处理真实世界的不确定性:噪声、延迟、标定误差、接触扰动等,推动效果在真机稳定复现
- 模型与训练链路
- 参与策略/表征学习模块的迭代(BC、offline RL、RL、hybrid 方案等)
- 维护与优化训练 pipeline:数据读取、回放/采样、评测、实验管理与可复现
- 与部署协作打通:训练 → 导出 → 推理 → 真机运行 的完整链路
- 数据链路与数据质量
- 参与真实数据采集与清洗:传感器同步、日志结构、数据质量诊断与修复
- 构建/优化数据集与基准:任务定义、成功判定、指标体系与对照实验框架"