AI算力平台架构师(J48690)
北京市不限学历应届
岗位职责
1. 负责大规模算力平台规划、架构设计、核心技术研发,确保高性能、高可用和可扩展性2. 负责GPU集群、高速网络、分布式存储系统的深度集成,制定弹性扩展与容灾方案3. 负责算力平台与主流AI框架的适配优化,推动工具链集成4. 负责分布式训练和推理任务的性能瓶颈分析和调优5. 负责算力平台核心组件的开发和维护
任职要求
1. 硕士学历,计算机、人工智能、高性能计算或相关专业,5年以上AI平台开发经验2. 熟练掌握大模型训练全流程,掌握分布式训练、参数服务器、通信优化等关键技术2. 熟练使用深度学习和分布式框架,DeepSpeed、Megatron等3. 熟练使用Kubetnetes等集群调度系统和异构加速方案,了解GPU虚拟化技术4. 熟悉主流算力芯片特性和调优方法5. 优秀的跨部门沟通和协作能力6. 有大规模(千卡以上)分布式训练集群的建设和优化经验优先
20,861+ 岗位更新等你来订阅
一键订阅最新的岗位,每周送达
🎉恭喜你,订阅成功
继续订阅您可以在邮箱中随时取消订阅