职位描述
岗位职责
1.模型训练与部署:设计和实现模型训练流程,包括自动化训练、超参数调优、模型评估和部署策略。
2.性能监控与分析:对模型训练和推理过程进行性能监控和分析,不断迭代优化以提升系统性能。
3.功能迭代开发:负责AI平台的标注业务、模型训练、性能评测等功能的持续迭代和优化。
4.系统运维管理:负责AI训练平台的日常运维管理,包括监控系统状态、故障排查、日志分析等。
5.技术预研:跟踪最新的AI技术趋势,评估新技术在公司业务中的应用潜力,并推动技术预研项目。
任职要求
1.硕士及以上学历,计算机科学、人工智能、软件工程或相关领域。
2.5年以上AI平台开发或相关领域的工作经验。
3.至少精通Java或C 中的一种,具有良好的编程风格和代码管理习惯。
4.熟练掌握至少一种深度学习框架,如TensorFlow, MXNet, Caffe, Torch等,具备网络结构设计、训练、大规模数据处理的经验。
5.熟悉Kubernetes/Docker等容器化管理平台,能够设计和实现容器化的AI训练和部署流程。
6.熟悉Mysql/MongoDB/Redis等数据库技术,能够进行数据库设计、优化和管理。
7.熟悉网络、IO、内存等系统监控工具,能够使用Nginx、Kafka等中间件。
8.了解微服务架构设计原则,有使用Docker/Kubernetes进行微服务开发、部署和运维的经验。
9.具备良好的沟通和团队协作能力,能够与不同背景的团队成员有效沟通。
10.对新技术有强烈的学习兴趣和快速学习能力,能够不断更新知识体系。
加分项
1.GPU/CUDA编程:熟悉GPU/CUDA的编程模型和优化技巧,能够为深度学习应用设计高效的并行计算策略。
2.分布式系统:了解分布式存储和分布式缓存技术,能够设计和实现分布式AI应用。