职位描述
职位描述:
岗位职责:
1.负责分布式网络爬虫系统的设计与开发;
2.设计爬虫策略和防屏蔽规则的探索,并提出解决方案,进行验证码等难点公关;
3.搭建高性能、高可用性的分布式爬取架构,不断提升网页抓取的效率和质量;
4.设计优化爬虫调度系统,优化调度策略。
任职要求:
1.全日制本科以上,计算机信息管理软件工程相关专业;
2.扎实的javapython基础,熟悉多线程编程环境,熟悉常见开源框架;
3.具有构建分布式爬虫系统的经验,具有海量高并发网页爬取项目经验;
4.熟悉抓取原理及技术,能熟练使用xpath正则表达式等进行文本抽取;
5.喜欢技术钻研,具有较强的学习能力,有独立解决问题的能力;
6.富有责任心,有担当。