招聘动态
更多>>
运维专家(计算方向)(J10993)
  • 招聘类别:
  • 活水岗位
  • 工作性质:
  • 全职
  • 招聘人数:
  • 若干
  • 发布时间:
  • 2025-08-01
  • 截止时间:
  •  

  • 工作地点:

    北京市


    工作职责:

    1、故障全生命周期0wner:完成定界、30min 内给出止损方案并现场指挥落地;·作为计算域故障第一责任人,5min内牵头复盘,输出 RCA及可落地的架构流程/代码级改进,复发率下降50%+;
    2、隐患清零闭环:基于日志、指标、拨测、Chaos 工程等数据,主动发现并推进重大隐患(资源泄漏、调度热点、内核BUG、热迁移失败等技术深耕与工具沉淀·在 0penStack、K8s容器、Linux内核虚拟化调度四大方向中至少精通1-2项;·用Python/Go将高频处置场景脚本化工具化、平台化,进行人效提升 ;
    3、客户与研发桥梁:面向客户技术层做透明化沟通,将复夺技术问题翻译成业务语言,与内核、虚拟化、网络、存储研发共建方案,推动缺陷在1-3个版本内解决。


    任职资格:

    1、大学本科以上学历,并取得相应学位,专业不限,5年及以上超大规模云资源池(>10W服务器)SRE/运维/研发经验;
    2、技术深度(源码级/内核级/调度器级)满足以下至少两项:0penStack Nova/Placement:资源调度、Filter/eigher 二次开发、大规模调度性能优化、K8s&容器:kube-scheduler、kubele、CRl、cgroups v2、RuntimeClass、热升级、Linux Kernel:调度器CFS/RT、内存管理 NUMA、KV/QEMU 调优、live-migration、eBPF 排障、虚拟化调度:CPU拓扑透传、VCPUning、超线程隔离、热迁移失败根因定位;
    3、技术广度:对存储(Ceph/Rook/NVMe-oF)及网络加速(OVS-DPDK、SR-I0V、virtio-net)具备熟练定位与应急能力;
    4、编码能力:Python/Go 至少一门可写出线上脚本/工具,熟悉 Git、CI/CD;
    5、沟通与执行力:曾直接面对客户或跨5+技术团队推进方案落地,具备“问题不关闭不罢休”的狠劲。