返回职位列表
全职 前沿技术平台部 普通岗

AI云基础设施工程师(Infra/MLOps)

北京上海 招聘 1 人

岗位职责

"职位描述: 专注于机器人与具身智能相关的云侧模型训练基础设施、数据链路与训练闭环体系建设,目标是让研发团队能更快、更稳、更省地完成模型训练迭代、数据流转闭环,为端侧落地提供高质量的模型与数据支撑。

  1. 云侧训练基础设施建设与优化
  • 负责云侧模型训练基础设施搭建与迭代,优化训练链路的稳定性、资源利用率与迭代效率(训练速度/成本/可扩展性)。
  • 参与训练框架集成与优化,推动训练过程中的混合精度、梯度优化等工程落地,建立训练性能评测与回归体系。
  • 负责大规模训练集群的资源管理、作业调度与优化,提升GPU等算力资源的利用率,降低训练成本。
  1. 数据链路与训练闭环体系搭建
  • 搭建并完善训练/评测全流程数据链路:涵盖数据采集、清洗、标注、版本管理、训练数据分发等环节,保障数据流转的高效性与可追溯性。
  • 建设全链路训练/评测流水线,实现数据版本、训练配置、实验产物、模型注册、指标追踪的全生命周期管理,构建“数据-训练-评测-反馈”的数据闭环。
  • 推动数据与训练流程的标准化,沉淀通用化的训练配置模板、数据处理工具与最佳实践。
  1. 云侧MLOps平台搭建与持续演进
  • 搭建并优化机器人模型训练相关的CI/CD流程:聚焦训练代码构建、实验测试、模型发布、版本管理与回滚机制。
  • 统一云侧训练环境与依赖管理(Docker/镜像仓库/制品库),保障训练环境的一致性,降低“环境不一致”带来的研发成本。
  • 优化实验管理体系,实现实验结果的可复现性、指标对比与全链路追溯,提升研发迭代效率。
  1. 云侧可观测性与稳定性治理
  • 建立云侧训练/数据链路的日志/指标/追踪(metrics/logs/traces)体系,完善告警、容量评估与故障定位工具。
  • 负责与云供应商对接,完成训练集群的问题排查、性能瓶颈定位、稳定性治理(如OOM、训练卡顿、GPU利用率低等)。
  • 输出清晰的云侧工程文档与规范(训练流程、性能基线、故障手册),推动团队工程协作效率提升。"

任职要求

"职位要求:

  1. 基础能力
  • 计算机基础扎实:数据结构、操作系统、网络、并发等核心知识掌握牢固。
  • 熟练Linux开发与排障,能独立定位云侧常见性能/稳定性问题。
  • 熟练C/C++或Python(两者都熟练者优先,有Rust项目经验者优先),具备良好的工程习惯(可读性、可测试性、可维护性)。
  1. 云侧Infra/工程体系经验
  • 有CI/CD、容器化、训练环境部署发布经验(Docker、K8s/容器编排、GitHub Actions/Jenkins等任一)。
  • 具备MLOps或平台工程经验,重点有训练/评测流水线搭建、实验管理、模型注册与发布、数据/配置版本管理等相关经验。
  • 有分布式训练或大规模集群经验(DeepSpeed/Megatron、作业调度、资源管理)者优先。
  1. AI系统与训练优化经验
  • 熟悉PyTorch等深度学习框架,了解模型训练链路的核心环节与优化点。
  • 有训练性能优化、算力资源调度优化经验,或具备CUDA/性能profiling(nsight、perf、torch profiler)经验者加分。
  • 了解数据处理框架与数据流水线优化经验者加分。
  1. 加分项(具身/机器人方向)
  • 有智驾/机器人云侧训练平台或数据闭环体系搭建经验者优先。
  • 有大规模数据处理、数据标注平台建设经验者加分。
  1. 软素质
  • 强owner意识,结果导向;能推动跨团队协作闭环。
  • 善于抽象与沉淀,把“救火经验”产品化为工具/平台/流程。
  • 善用AI coder提效但拒绝依赖AI 你会得到
  • 参与具身智能真实系统的云侧AI Infra建设,直面“数据-训练-评测-闭环”的核心硬问题。
  • 极具竞争力的薪资 + 期权/股权激励,完善福利政策,灵活办公
  • 具身智能行业 Top 人才团队与大佬带队,高密度成长与技术视野
  • 影响核心研发效率与模型训练质量的关键岗位,成果可量化、价值可见"

相关岗位

相关职位

RIMBOT logo

RIMBOT

感谢您关注我们的职位机会。我们重视每一位候选人的申请,并将认真审阅您的应聘材料。

© 2026 RIMBOT. 保留所有权利。

Powered by 初一HR