关于扇贝团队:
扇贝是国内知名的在线学习平台,已经拥有近七千万用户,同时持续盈利。我们在分布式架构,自然语言处理等技术方面也有长期积累,结合精良的内容制作,能够为用户提供独特和优秀的产品服务。
- 我们会有各种分享会,产品、设计、技术、运营、英语大家一起交流;
- 我们有一个专门的活动室,工作之余可以与小伙伴一起健身、运动;
- 我们每天提供下午茶;
- 我们提供人体工程学座椅, 办公电脑是 Mac。
岗位职责:
-开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
-负责网页信息和 App 数据抽取、清洗、消重等工作
基本要求:
-掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则表达式、XPath 等网页信息抽取技术
-熟悉常用开源爬虫框架,如 scrapy / pyspider
-扎实的编码能力与算法基础,熟悉 Linux 下的 Python / Shell 开发
扇贝是国内知名的在线学习平台,已经拥有近七千万用户,同时持续盈利。我们在分布式架构,自然语言处理等技术方面也有长期积累,结合精良的内容制作,能够为用户提供独特和优秀的产品服务。
- 我们会有各种分享会,产品、设计、技术、运营、英语大家一起交流;
- 我们有一个专门的活动室,工作之余可以与小伙伴一起健身、运动;
- 我们每天提供下午茶;
- 我们提供人体工程学座椅, 办公电脑是 Mac。
岗位职责:
-开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
-负责网页信息和 App 数据抽取、清洗、消重等工作
基本要求:
-掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则表达式、XPath 等网页信息抽取技术
-熟悉常用开源爬虫框架,如 scrapy / pyspider
-扎实的编码能力与算法基础,熟悉 Linux 下的 Python / Shell 开发