爬虫工程师
7千-1万佛山市专科不限经验
职位描述
岗位职责:
主导设计、开发及维护高性能、高可用的分布式爬虫系统,从YouTube、TikTok等海外主流社交平台,以及抖音、快手、小红书等国内头部平台精准抓取账号信息、视频内容、评论等结构化/非结构化数据。
岗位要求:
1.大专以上学历,2年以上爬虫相关项目经验;
2.核心技能要求:
(1)精通Python编程语言,熟练使用 Scrapy、Requests、BeautifulSoup、Selenium、Playwright 等主流爬虫框架和工具;
(2)熟悉 Scrapy-Redis、Celery 等分布式爬虫架构,具备搭建和部署分布式爬虫系统的能力;
(3)深入了解浏览器原理、前端JS反爬技术(如动态渲染、混淆加密)、AJAX请求处理等,能独立解决前端动态JS问题;
(4)掌握 HTTPS 抓包分析,熟练使用 Charles、Fiddler 等工具进行协议分析和接口调试;
(5)具备 JS逆向工程、APP逆向分析(Frida/Xposed)、脱壳、加密参数还原 等实战经验;
(6)熟悉常见的反爬机制及应对方案,包括但不限于 IP封禁、User-Agent校验、设备指纹识别等;
(7)熟练掌握 XPath、JSONPath、正则表达式 等数据提取技术,能够对海量数据进行清洗、去重、结构化处理;
(8)熟悉 MySQL、MongoDB、Redis 等数据库的使用与调优,具备高并发写入场景下的性能优化经验;
(9)了解 Docker、Kubernetes、Docker Swarm 等容器化部署工具,有基于云原生的爬虫系统部署经验者优先;
(10)具备良好的系统监控、日志分析和预警处理能力,确保爬虫系统长期稳定运行。
(11)深入分析目标平台反爬机制,独立完成加密参数逆向、滑块/验证码识别、登录认证模拟等功能开发,定制针对性的反爬应对策略,保障数据采集稳定运行。
(12)搭建并持续优化代理IP池、动态User-Agent管理、Cookies/Session维持等反爬对抗体系,提升系统的抗封禁能力,降低被平台拦截风险。
(13)负责大规模文本、图像等内容的抓取、去重、质量筛选及清洗处理,构建高质量的数据基础,为上层业务提供可靠数据支撑。
(14)完成数据接口封装、结构化存储及API服务输出,高效对接业务团队需求,赋能数据分析、推荐系统等核心业务。
20,861+ 岗位更新等你来订阅
一键订阅最新的岗位,每周送达
🎉恭喜你,订阅成功
继续订阅您可以在邮箱中随时取消订阅