招聘动态
更多>>
运维专家(服务器硬件运维)(J10988)
  • 招聘类别:
  • 活水岗位
  • 工作性质:
  • 全职
  • 招聘人数:
  • 若干
  • 发布时间:
  • 2025-07-24
  • 截止时间:
  •  

  • 工作地点:

    北京市


    工作职责:

    1、硬件运维与故障管理:负责服务器及GPU等智算硬件的日常巡检、故障诊断与修复,确保高可用性。主导硬件监控告警体系建设,制定告警策略,实现故障快速响应。
    2、运维体系优化:设计标准化运维流程,推动自动化工具落地,提升运维效率。分析硬件故障数据,优化设备选型与配置,降低故障率。
    3、参与智算硬件专项运维:负责GPU集群的部署、性能调优及维护(如CUDA环境配置、NVLink优化)。协同厂商处理JDM/OEM定制化硬件问题。
    4、操作系统与性能优化:解决Linux/Windows系统层问题(如内核崩溃、性能瓶颈),完成安全加固。
    5、团队协作:指导团队成员,协调跨部门资源,保障业务连续性。


    任职资格:

    1、大学本科以上学历,并取得相应学位。计算机、网络等相关专业优先;’
    2、8年及以上服务器硬件运维经验,熟悉主流服务器硬件架构和工作原理,熟悉x86/ARM架构及GPU运维,能够熟练处理各类硬件故障;
    3、精通Linux/Windows系统管理及性能调优(如coredump分析、内核参数优化)。具备监控系统搭建经验(Prometheus/Zabbix),能设计有效告警规则。
    4、技术栈要求:
    硬件:IPMI/iDRAC管理、RAID/NVMe存储、GPU(NVIDIA SMI/ROCm)。
    运维工具:Ansible/SaltStack、日志分析工具(ELK)。
    数据分析:熟练使用SQL/Excel进行故障趋势分析。
    5、加分项:
    有JDM/OEM协作经验或智算集群(如GPU/NPU)运维经验。
    熟悉SRE理念,具备自动化运维平台开发能力。
    6、具备强烈的责任心,能主动排查隐患,推动问题闭环。具备优秀的沟通能力,适应跨团队协作。