运维工程师(新疆哈密)
6千-1.2万哈密地区专科不限经验
职位描述
岗位职责
1、负责算力集群的日常运维、监控、优化及故障处理。
2、设计、部署和维护基于Kubernetes的容器化平台,确保其高效稳定运行。
3、建设在IDC搭建大规模集群,提供运维能力和体系,支持云平台团队开发并对平台客户提供相关技术支持。
4、监控系统运行状态,及时发现并解决潜在问题,保障系统7x24小时高可用。
5、编写和维护运维相关文档,包括系统架构、操作手册、故障处理流程等。
任职要求
1、可接受应届毕业生,有工作经验者优先。
2、熟练掌握kubernetes的部署、管理和优化,具备大规模集群运维经验。
3、熟悉Linux操作系统,有丰富操作系统内核参数优化、操作系统问题分析定位和系统性能优化经验。
5、熟悉Prometheus、Grafana、ELK等,能够进行日志平台、监控平台和分布式跟踪平台规划落地经验。
5、熟悉IB/ROCE/NVLink/PCl-e等集群常见的通信协议以及网卡配置。
6、有大规模 GPU 集群的环境配置及管理经验优先。
7、掌握 Al技术运维,需要对相关技术有了解和实施能力。比如CUDA、CANN 驱动升级,GPU in K8s等。
8、有强烈的工作责任心,较好的沟通能力和自驱力,能够快速的响应和行动。
20,861+ 岗位更新等你来订阅
一键订阅最新的岗位,每周送达
🎉恭喜你,订阅成功
继续订阅您可以在邮箱中随时取消订阅