立即申请该职位

← 返回职位列表

全职前沿技术平台部普通岗

AI云基础设施工程师（Infra/MLOps）

北京上海招聘 1 人

岗位职责

"职位描述：专注于机器人与具身智能相关的云侧模型训练基础设施、数据链路与训练闭环体系建设，目标是让研发团队能更快、更稳、更省地完成模型训练迭代、数据流转闭环，为端侧落地提供高质量的模型与数据支撑。

云侧训练基础设施建设与优化

负责云侧模型训练基础设施搭建与迭代，优化训练链路的稳定性、资源利用率与迭代效率（训练速度/成本/可扩展性）。
参与训练框架集成与优化，推动训练过程中的混合精度、梯度优化等工程落地，建立训练性能评测与回归体系。
负责大规模训练集群的资源管理、作业调度与优化，提升GPU等算力资源的利用率，降低训练成本。

数据链路与训练闭环体系搭建

搭建并完善训练/评测全流程数据链路：涵盖数据采集、清洗、标注、版本管理、训练数据分发等环节，保障数据流转的高效性与可追溯性。
建设全链路训练/评测流水线，实现数据版本、训练配置、实验产物、模型注册、指标追踪的全生命周期管理，构建“数据-训练-评测-反馈”的数据闭环。
推动数据与训练流程的标准化，沉淀通用化的训练配置模板、数据处理工具与最佳实践。

云侧MLOps平台搭建与持续演进

搭建并优化机器人模型训练相关的CI/CD流程：聚焦训练代码构建、实验测试、模型发布、版本管理与回滚机制。
统一云侧训练环境与依赖管理（Docker/镜像仓库/制品库），保障训练环境的一致性，降低“环境不一致”带来的研发成本。
优化实验管理体系，实现实验结果的可复现性、指标对比与全链路追溯，提升研发迭代效率。

云侧可观测性与稳定性治理

建立云侧训练/数据链路的日志/指标/追踪（metrics/logs/traces）体系，完善告警、容量评估与故障定位工具。
负责与云供应商对接，完成训练集群的问题排查、性能瓶颈定位、稳定性治理（如OOM、训练卡顿、GPU利用率低等）。
输出清晰的云侧工程文档与规范（训练流程、性能基线、故障手册），推动团队工程协作效率提升。"

任职要求

"职位要求：

基础能力

计算机基础扎实：数据结构、操作系统、网络、并发等核心知识掌握牢固。
熟练Linux开发与排障，能独立定位云侧常见性能/稳定性问题。
熟练C/C++或Python（两者都熟练者优先，有Rust项目经验者优先），具备良好的工程习惯（可读性、可测试性、可维护性）。

云侧Infra/工程体系经验

有CI/CD、容器化、训练环境部署发布经验（Docker、K8s/容器编排、GitHub Actions/Jenkins等任一）。
具备MLOps或平台工程经验，重点有训练/评测流水线搭建、实验管理、模型注册与发布、数据/配置版本管理等相关经验。
有分布式训练或大规模集群经验（DeepSpeed/Megatron、作业调度、资源管理）者优先。

AI系统与训练优化经验

熟悉PyTorch等深度学习框架，了解模型训练链路的核心环节与优化点。
有训练性能优化、算力资源调度优化经验，或具备CUDA/性能profiling（nsight、perf、torch profiler）经验者加分。
了解数据处理框架与数据流水线优化经验者加分。

加分项（具身/机器人方向）

有智驾/机器人云侧训练平台或数据闭环体系搭建经验者优先。
有大规模数据处理、数据标注平台建设经验者加分。

软素质

强owner意识，结果导向；能推动跨团队协作闭环。
善于抽象与沉淀，把“救火经验”产品化为工具/平台/流程。
善用AI coder提效但拒绝依赖AI 你会得到
参与具身智能真实系统的云侧AI Infra建设，直面“数据-训练-评测-闭环”的核心硬问题。
极具竞争力的薪资 + 期权/股权激励，完善福利政策，灵活办公
具身智能行业 Top 人才团队与大佬带队，高密度成长与技术视野
影响核心研发效率与模型训练质量的关键岗位，成果可量化、价值可见"

相关岗位

相关职位