职位描述
【岗位使命】
通过脚本化 / 平台化手段,提升数据标注同学的自动化效率和数据质量,为算法团队快速沉淀高质量训练数据。
【核心职责】
负责文本 / 图像 / 音频等多模态数据的采集、清洗、去重与格式转换;
开发并维护半自动 / 全自动标注流水线,包括任务切分、预标注、质检、回流等环节;
基于现有标注工具进行二次开发或插件集成;
持续监控标注流程的时效、成本与准确率,分析瓶颈并进行脚本或服务级优化;
与标注运营同学紧密沟通,快速响应内部需求并迭代工具;
完成相关文档、使用手册与内部培训,保障工具落地效果。
【任职要求】(必备)
本科及以上学历,计算机/软件/电子信息等相关专业;
2~3 年 Python 开发经验,熟悉常用数据结构、网络与 Linux 环境;
精通 Python 快速脚本化能力,熟练使用 Pandas/Numpy/regex 等做批量数据处理;
熟练掌握至少一种主流 Web 框架(FastAPI / Django / Flask),掌握;
熟悉Git、 RESTful,基本掌握 CI/CD 流程、常见数据库;
良好的编码规范与自测意识,能独立交付小型自动化项目。
【优先 / 加分项】
• 能编写简单前端页面(HTML/CSS/Vanilla JS 或 Vue/React 轻度使用);
• 了解LLM 推理、PyTorch、RAG、LangChain / OpenAI API 等;
• 熟悉向量数据库(Milvus/FAISS)或文本检索、数据去重算法者优先。
【福利待遇】
综合薪资12k-24k,缴纳五险一金,有带薪休假
【上班时间】
9:30-18:00,双休,可弹性1小时打卡,法定节假日正常休息