职位描述
岗位职责:
1.负责大模型训练框架、推理引擎及资源调度平台(GPU/Kubernetes 等)的架构设计与研发,保障系统高效、稳定、可扩展;
2.与算法团队深度合作,针对大模型训练/推理场景进行算法系统联合优化,提升训练速度与推理吞吐;
3.主导分布式训练、混合并行、算子优化等关键技术攻关,持续提升 GPU 利用率并降低计算成本;
4.跟踪业界前沿,开展前瞻性技术调研与原型验证,保持实验室在大模型系统方向的技术领先;
5.输出高质量技术文档和规范,推动团队技术共享与持续改进。
任职要求:
1.精通 Linux 环境下的 C/C 与 Python 编程;
2.具备以下至少一项经验:分布式训练、CUDA 算子优化、深度学习训练/推理框架二次开发、在线推理服务、Kubernetes/GPU 集群调度;
3.具有独立解决复杂系统问题的能力,良好的团队协作与沟通能力;
4.强烈的责任心和自驱力,优秀的学习能力;
5.具备规范的文档编写习惯,能够及时更新技术文档和流程。
加分项:
1.深入研究过至少一种深度学习框架(TensorFlow / PyTorch / JAX 等)的底层机制;
2.参与过 10B 级以上大模型训练并进行算法或系统调优;
3.熟悉云原生 DevOps、容器化技术及 K8s 生态;
4.具有系统方向(分布式系统、并行计算、网络或存储等)研究背景且在顶会发表论文;
5.对 LLM 推理加速与工程落地有丰富经验者优先。