"职位描述:
专注于机器人与具身智能相关的云侧模型训练基础设施、数据链路与训练闭环体系建设,目标是让研发团队能更快、更稳、更省地完成模型训练迭代、数据流转闭环,为端侧落地提供高质量的模型与数据支撑。
- 云侧训练基础设施建设与优化
- 负责云侧模型训练基础设施搭建与迭代,优化训练链路的稳定性、资源利用率与迭代效率(训练速度/成本/可扩展性)。
- 参与训练框架集成与优化,推动训练过程中的混合精度、梯度优化等工程落地,建立训练性能评测与回归体系。
- 负责大规模训练集群的资源管理、作业调度与优化,提升GPU等算力资源的利用率,降低训练成本。
- 数据链路与训练闭环体系搭建
- 搭建并完善训练/评测全流程数据链路:涵盖数据采集、清洗、标注、版本管理、训练数据分发等环节,保障数据流转的高效性与可追溯性。
- 建设全链路训练/评测流水线,实现数据版本、训练配置、实验产物、模型注册、指标追踪的全生命周期管理,构建“数据-训练-评测-反馈”的数据闭环。
- 推动数据与训练流程的标准化,沉淀通用化的训练配置模板、数据处理工具与最佳实践。
- 云侧MLOps平台搭建与持续演进
- 搭建并优化机器人模型训练相关的CI/CD流程:聚焦训练代码构建、实验测试、模型发布、版本管理与回滚机制。
- 统一云侧训练环境与依赖管理(Docker/镜像仓库/制品库),保障训练环境的一致性,降低“环境不一致”带来的研发成本。
- 优化实验管理体系,实现实验结果的可复现性、指标对比与全链路追溯,提升研发迭代效率。
- 云侧可观测性与稳定性治理
- 建立云侧训练/数据链路的日志/指标/追踪(metrics/logs/traces)体系,完善告警、容量评估与故障定位工具。
- 负责与云供应商对接,完成训练集群的问题排查、性能瓶颈定位、稳定性治理(如OOM、训练卡顿、GPU利用率低等)。
- 输出清晰的云侧工程文档与规范(训练流程、性能基线、故障手册),推动团队工程协作效率提升。"