Thursday, October 9, 2014

数据采集架构师(北京, 初创公司)

Job Description: (This job is in Beijing at a fast growing China start-up)

职位描述:

• 职称:数据采集架构师
• 产业:大数据挖掘服务(娱乐产业)
• 地点:北京
• 公司:国内领先的娱乐大数据服务提供商,核心团队来自于顶级学府,技术团队精干,公司前景甚佳

工作职责:

• 负责数据采集整体技术架构设计,抓取大规模文本(新闻,博客,论坛,微博等)、图像、视频数据

• 提高网页抓取的效率和质量,进一步解决系统的网页排重、垃圾控制、资源划分等问题

• 参与爬虫核心算法和策略优化研究,熟悉采集系统的调度策略及演进方式,保证数据采集的及时性,全面性,不断提高爬虫智能性

• 负责网页信息抽取等核心算法的研究和优化


职位要求:

• 计算机相关专业本科以上学历,精通数据结构和数据算法

• 对搜索引擎爬虫系统有深入研究和丰富的经验,有海量数据处理的丰富经验

• 2年以上大规模网页爬虫开发经验,熟悉JS,ajax,网页消重

• 熟悉浏览器内核者优先

• 有知名互联网公司工作经验者优先


Apply Now

[GARD]