GPU算力调度平台技术支持工程师
2-4万深圳市本科不限经验
职位描述
岗位职责
1、负责GPU算力调度平台的部署、调试、运维及故障排查,保障平台稳定性和高性能输出。
2、提供即时技术响应,快速定位并解决客户在资源分配、任务调度、多租户隔离等场景中的技术问题。
3、编写技术文档(如操作手册、FAQ、故障处理指南),并开展客户培训与现场技术支持。
4、协同研发团队复现客户问题,推动产品迭代优化,提炼客户需求转化为功能改进建议。
5、跟踪行业技术动态(如Kubernetes GPU插件、异构资源池化方案),提升平台兼容性与竞争力。
任职要求
1、计算机/电子工程/人工智能相关专业本科及以上学历,3年以上云计算或HPC领域技术支持经验优先。
2、精通Linux系统管理,熟悉Shell/Python/Go等脚本开发,具备容器化技术(Docker/K8s)及GPU虚拟化(vGPU/MIG)实践经验。
3、深入理解NVIDIA/AMD GPU架构及驱动生态,熟悉CUDA/ROCm编程模型及主流AI框架(PyTorch/TensorFlow)的算力优化策略。
4、具备分布式集群管理经验(如OpenStack/Kubernetes Slurm),熟悉监控工具(Prometheus/Grafana)及日志分析(ELK Stack)。
5、出色的逻辑分析能力与抗压能力,持有NVIDIA DLI或云计算认证(如CKA/ACE)者优先。
20,861+ 岗位更新等你来订阅
一键订阅最新的岗位,每周送达
🎉恭喜你,订阅成功
继续订阅您可以在邮箱中随时取消订阅