职位描述
岗位职责:
1. 模型微调与优化
(1)独立针对业务场景开展模型指令微调、强化学习微调及参数高效微调(LoRA/QLoRA等)工作,制定合理的微调策略并落地执行;
(2)主导设计高质量微调数据集方案,包括数据来源筛选、清洗规则制定、标注标准定义、样本构造与质量评估,解决数据稀疏、噪声干扰等问题。
2. 训练与实验管理
(1)独立搭建、维护和优化模型训练环境,支持单机/分布式训练,负责训练任务的配置、执行、监控与故障排查,保障训练任务高效稳定运行;
(2)熟练使用实验跟踪与超参调优工具,设计合理的超参搜索空间,完成超参调优任务,对比分析实验结果,建立规范的实验管理与版本控制流程。
3. 端到端训练与评估
(1)独立完成端到端模型训练全流程,包括训练环境搭建、分布式训练配置、训练过程监控、超参动态调优,解决训练过程中的常见技术问题;
(2)设计自动化 人工结合的综合评估方案,制定贴合业务场景的评估指标,开发自动化评估脚本,持续跟踪模型业务效果,输出效果分析报告与优化方案。
4. 协作与沉淀
(1)配合部署团队将微调模型部署为稳定的推理服务,参与推理接口调试、性能测试与问题排查;参与Prompt工程、RAG流程优化,提升智能应用准确性;
(2)输出技术文档、微调报告与***实践指南,推动团队成果复用;协助指导初级工程师开展工作,解答基础技术问题,参与团队技术方案评审。
任职要求:
1.两至三年AI项目开发经验,具备独立负责大模型微调或行业模型落地子任务的实战经验,参与过完整的大模型项目流程(数据处理、模型训练、迭代优化到交付)。
2.技术能力
(1)精通Python,熟练使用PyTorch或TensorFlow框架进行模型开发、训练与调优,能独立搭建训练流程;
(2)熟悉常见大模型架构(Transformer、GPT、BERT等)及主流中/英文开源模型特性与适用场景,能根据业务需求选择合适模型;
(3)具备良好的数据敏感度,能独立从原始业务数据中提炼有效训练信号,设计数据清洗、增强及标注策略;
(4)注重代码规范、模块化设计,能构建可复现、可追溯的实验体系,能在有限算力资源下完成模型迭代;
(5)了解基础模型部署方式(如TensorRT、ONNX)及推理优化手段(如量化、剪枝),能完成基础模型部署与推理测试。
3.软性要求
(1)具备独立分析和解决问题的能力,能针对模型训练常见问题(过拟合、收敛慢等)提出优化方案;
(2)具备良好的跨团队协作能力,能高效对接业务、数据团队;
(3)具备一定的技术文档撰写能力,能输出清晰的技术方案与实验报告。