数据工程师
1.5-2.5万佛山市本科不限经验
职位描述
岗位职责:
1.数据采集与整合,负责多源图像/视频数据的采集(如公开数据集、网络爬虫、设备接口等),设计自动化脚本抓取目标数据,支持大规模图像库构建。
2.开发多模态数据(文本、图像、语音)融合方案,提升数据多样性及场景覆盖度。
3.数据清洗与预处理,主导图像数据清洗流程:剔除低质量/重复样本,处理缺失值,校正格式错误(如分辨率、色彩空间),优化数据可用性。
4.开发自动化清洗工具链(Python/Pandas/OpenCV),实现噪声过滤、格式统一、冷热数据分离等操作;
5.数据标注与增强,设计图像标注规则(如目标检测框、语义分割、关键点标注),使用CVAT/Label Studio等工具确保标注一致性与准确性。
6.应用数据增强技术(旋转、裁剪、对抗生成等)扩充数据集,提升模型鲁棒性与泛化能力。
7.数据安全与合规,执行数据脱敏与去标识化处理,遵守《个人信息保护法》及GDPR要求,制定隐私保护策略。
8.管理数据版权与授权协议,确保训练数据合法合规。
9.模型训练支持,配合算法团队构建高质量训练集/验证集,优化数据标注方案以提升模型效果(如YOLO系列目标检测模型)。
10.参与数据归因分析,定位数据缺陷导致的模型偏差,迭代优化数据集。
任职资格:
1.电子、计算机、自动控制等相关专业本科以上学历;
2.2年以上数据工程经验,具备图像数据处理全链路落地案例
3.精通Python(Pandas/NumPy/OpenCV),熟悉SQL及Shell脚本;
4.精通数据标注相关工具:CVAT、LabelImg、Label Studio;
5.熟悉ETL流程,如Airflow/Kettle/DataX等;
6.掌握图像增强技术(GANs/Diffusion模型),了解机器学习数据输入规范;
7.熟悉计算机视觉任务(目标检测、语义分割)的数据标注标准(如COCO/VOC);
8.数据敏感度:能精准识别数据质量问题,制定清洗策略;
9.协作能力:高效对接算法工程师与外包标注团队,管控数据交付质量;
10.熟悉分布式爬虫框架(Scrapy/Selenium)及反爬策略;
11.具备云平台数据工具经验(AWS RDS/Azure);
12.参与过大模型预训练数据项目(如RedPajama);
13.了解模型轻量化部署(TensorRT/ONNX)。
简历是否与目标岗位匹配?
为什么没有面试?我的简历有什么问题?
怎么优化?职业优势在哪里?

投递之前...
你的简历真的准备好了吗
80% 简历因职业定位模糊,表达无焦点
被快速跳过,立即诊断,提升面试机会!