职位描述
岗位职责:
1. 需求分析与规划: 深刻理解VLM核心任务及其数据需求,识别当前数据短板。
2. 数据检索与获取:高效利用网络资源(包括主流社交媒体平台、专业社区、公开学术数据集库、特定领域网站等)检索、爬取所需的多模态原始数据。
3. 数据定制化: 根据特定项目方向(如面向用户实时交互的视频流媒体场景)定制数据源策略和数据采集方案。
4. 数据处理与构建:
○ 设计并执行数据清洗、预处理、去噪流程。
○ 定义并确保高质量的数据标准。
○ 组织和管理数据标注工作。
○ 构建结构化的、适用于模型训练和评测的高质量数据集。
5. 流程优化: 持续优化数据获取、处理、标注、存储和管理流程,提升效率与质量。
6. 评测数据建设: 专注于构建公平、全面、具有挑战性的VLM模型评测数据集,服务于模型能力评估和行业对比。
任职资格:
1. 学历与专业背景:
○ 计算机科学、数据科学、人工智能、软件工程或相关领域的本科及以上学历。
2. 相关经验与技术领域年限:
○ 年限:
■ 1年~3年数据处理、数据工程或机器学习相关领域工作经验。
■ 1年及以上实际处理多模态数据(图像+文本、视频+文本等)的项目经验,熟悉其特有挑战和处理方法。
○ 优先:有视觉语言模型(VLM) 相关项目数据工作经验,深刻理解其数据需求。
3. 专业技能:
○ 数据处理基础扎实: 了解数据清洗、预处理、转换技术,熟悉常见的数据处理工具和库(如Pandas, NumPy, SQL等)。
○ 多模态理解基础: 对计算机视觉(CV)和自然语言处理(NLP)的基本概念、任务及数据格式有清晰理解。
○ VLM任务认知: 深入理解主流VLM任务的原理、评估指标及其对数据的具体要求(如高质量的图文对、精准的视频-文本对齐)。
○ 网络数据检索能力: 熟练掌握从各类网络资源(社交媒体、专业论坛、公开数据集平台、特定领域网站)高效检索和获取所需数据的方法与工具(如爬虫技术、API使用)。
○ 数据标准制定: 具备定义清晰、可执行的多模态数据质量标准(如图文相关性、视频片段描述准确性、时序对齐度)的能力。
○ (加分项)数据标注管理: 有设计标注规范、管理标注团队或使用标注平台的经验。
4. 软技能:
○ 信息搜集与整合能力: 能够敏锐地发现并整合分散的网络数据资源。
○ 分析与解决问题能力: 能够精准分析VLM任务的数据需求,识别数据短板,并制定有效的解决方案。
○ 细致严谨: 对数据质量有高标准要求,注重细节,确保数据的准确性和一致性。
○ 沟通协作: 能够清晰表达数据需求和标准,与算法工程师、研究员、标注团队等进行有效协作。
○ 主动性: 主动探索新的数据源、工具和方法,持续优化数据流程。
○ 学习能力: 能够快速学习VLM领域的新进展及其对数据提出的新要求。
福利待遇:
1、综合薪资:12K-24K
2、缴纳五险一金,有带薪休假
上班时间:
1、9:30-18:00双休
2、可弹性1小时打卡
3、法定节假日正常休