职位描述
【岗位职责】
1、负责构建和优化语音识别系统(ASR)的核心模型,包括声学模型、语言模型和解码器;
2、设计和实现基于深度学习的语音识别模型(如 CTC、Transducer、Attention-based、Whisper、Conformer 等);
3、处理语音数据的预处理、增强(如降噪、去混响、VAD)、数据清洗与特征提取(如 MFCC、FBank、SpecAugment);
3、跟踪行业最新算法(如 Whisper、wav2vec2.0、S2T-BERT),持续优化识别准确率和实时性;
4、协助部署语音识别服务到边缘设备或云端,优化模型体积、延迟与资源消耗;
5、与产品团队合作,分析语音识别结果在实际业务中的表现,持续迭代模型策略。
【任职要求】
计算机、人工智能、声学、电子等相关专业,硕士及以上学历优先;
熟练掌握一种主流深度学习框架(如 PyTorch、TensorFlow),有 ASR 项目经验;
熟悉主流语音识别架构(如 Kaldi、ESPnet、WeNet、Whisper);
熟悉端到端语音识别算法(CTC、RNN-T、attention-based seq2seq 等);
有处理语音前端问题(如 VAD、降噪、特征提取)经验;
具备良好的工程实现能力、沟通能力与团队合作精神。