工作内容: 参与具身智能体的多模态大模型(VLM / LMM)的预训练与微调,支持视觉-语言联合理解与决策。 在公开大规模数据集(如 Ego4D、Egoscale 等)上进行模型预训练,提升基础感知与推理能力。 参与数据清洗、数据增强、多模态对齐等数据处理流程建设,支撑大规模预训练的高效进行。 参与具身智能体(机器人/仿真体)的强化学习训练框架搭建,结合大模型能力提升策略理解与泛化能力。 参与 Reward Model 的设计与迭代,构建符合具身任务目标的奖励函数
硕士及以上学历,计算机、人工智能、自动化、电子信息等相关专业。 具有扎实的多模态大模型训练经验,熟悉 VLM 主流架构(如 LLaVA / BLIP / Flamingo / Qwen-VL 等)。 具备在大规模公开多模态数据集上进行预训练的实际经验,能够独立完成从数据准备到模型训练的全流程。 熟悉常见预训练任务(如对比学习、掩码建模、图像-文本匹配等)及训练技巧(动态数据加载、分布式训练、混合精度等)。 具备良好的问题分析与定位能力,能够诊断训练发散、损失异常、多模态对齐失效等问题。 具备优秀的沟通能力与团队协作精神,能够与感知、决策、部署等团队高效协作。 工作态度积极认真,责任心强,具有良好的工程与科研素养。
相关岗位