预训练数据工程师
北京市不限学历应届
岗位职责
PB级别的文本和多模态数据处理、相似检索和大规模数据去重和可视化分析
建设有竞争力的大模型预训练数据体系和数据处理的完整工程pipeline
任职要求
对大模型方向充满兴趣,且能充分意识到数据对于模型能力的重要价值和数据侧的巨大空间
工程能力强,有大规模数据处理的经验,善于设计高效的数据处理算法和策略
具备几万核CPU集群的高效利用和分布式数据处理能力,熟悉spark,hadoop等数据计算引擎
熟悉基础的NLP/多模模型,对特征embedding,minhash,大规模数据去重和检索有丰富的经验
[加分] 有实际基于大规模数据进行可视化分析和模型训练的经验,了解数据tokenizer逻辑
20,861+ 岗位更新等你来订阅
一键订阅最新的岗位,每周送达
🎉恭喜你,订阅成功
继续订阅您可以在邮箱中随时取消订阅
