爬虫工程师

7千-1万

佛山市专科不限经验

职位描述

岗位职责：

主导设计、开发及维护高性能、高可用的分布式爬虫系统，从YouTube、TikTok等海外主流社交平台，以及抖音、快手、小红书等国内头部平台精准抓取账号信息、视频内容、评论等结构化/非结构化数据。

岗位要求：

1.大专以上学历，2年以上爬虫相关项目经验；

2.核心技能要求：

（1）精通Python编程语言，熟练使用 Scrapy、Requests、BeautifulSoup、Selenium、Playwright 等主流爬虫框架和工具；

（2）熟悉 Scrapy-Redis、Celery 等分布式爬虫架构，具备搭建和部署分布式爬虫系统的能力；

（3）深入了解浏览器原理、前端JS反爬技术（如动态渲染、混淆加密）、AJAX请求处理等，能独立解决前端动态JS问题；

（4）掌握 HTTPS 抓包分析，熟练使用 Charles、Fiddler 等工具进行协议分析和接口调试；

（5）具备 JS逆向工程、APP逆向分析（Frida/Xposed）、脱壳、加密参数还原等实战经验；

（6）熟悉常见的反爬机制及应对方案，包括但不限于 IP封禁、User-Agent校验、设备指纹识别等；

（7）熟练掌握 XPath、JSONPath、正则表达式等数据提取技术，能够对海量数据进行清洗、去重、结构化处理；

（8）熟悉 MySQL、MongoDB、Redis 等数据库的使用与调优，具备高并发写入场景下的性能优化经验；

（9）了解 Docker、Kubernetes、Docker Swarm 等容器化部署工具，有基于云原生的爬虫系统部署经验者优先；

（10）具备良好的系统监控、日志分析和预警处理能力，确保爬虫系统长期稳定运行。

（11）深入分析目标平台反爬机制，独立完成加密参数逆向、滑块/验证码识别、登录认证模拟等功能开发，定制针对性的反爬应对策略，保障数据采集稳定运行。

（12）搭建并持续优化代理IP池、动态User-Agent管理、Cookies/Session维持等反爬对抗体系，提升系统的抗封禁能力，降低被平台拦截风险。

（13）负责大规模文本、图像等内容的抓取、去重、质量筛选及清洗处理，构建高质量的数据基础，为上层业务提供可靠数据支撑。

（14）完成数据接口封装、结构化存储及API服务输出，高效对接业务团队需求，赋能数据分析、推荐系统等核心业务。

20,861+ 岗位更新等你来订阅

一键订阅最新的岗位，每周送达

您可以在邮箱中随时取消订阅