招聘动态
更多>>
研发专家(基础设施监控平台)(J10950)
  • 招聘类别:
  • 活水岗位
  • 工作性质:
  • 全职
  • 招聘人数:
  • 若干
  • 发布时间:
  • 2025-06-26
  • 截止时间:
  •  

  • 工作地点:

    北京市


    工作职责:

    1.主导天翼云大规模基础设施(含数据中心现场/网络/服务器/网卡等领域)的监控自动化管理平台的架构设计与工程化落地,打造业界领先的基础设施运维平台;
    2.参与基础设施运维平台研发项目管理,对接理清本平台和云公司周边业务平台生态关系,推动平台落地对接;
    3.构建统一的全链路观测体系(metrics、log、event、trace),持续迭代优化产品体验;
    4.实现基础设施全生命周期管理平台化,构建一体化的风险、告警、异常、故障等健康管理体系,运用巡检、诊断、预案自愈等手段缩短MTTR,保障自研产品及方案在生产环境的稳定性;
    5.持续跟进了解业界前沿技术方案,结合公司实际情况,借助基础设施自研的灵活性,探索监控自动化产品建设落地形态方式。


    任职资格:

    1.大学本科以上学历,并取得相应学位,计算机相关专业,并有8年及以上相关领域工作经验;
    2.扎实的计算机软件基础,熟悉Linux操作系统,熟练掌握Go/Python/Java中至少一门程序开发语言;
    3.有较好的架构设计、代码开发经验,能够制定可拆解落地的目标,并能够在技术和产品设计上指导团队成员;
    4.了解数据中心基础设施的常用监控技术,熟悉IPMI、SNMP、syslog、netconf、telemetry等两种以上采集控制协议技术;
    5.熟悉监控领域开源技术栈,如Prometheus/VictoriaMetics/ELK/Opentelemetry/Clickhouse等;
    6.对基础设施全生命周期管理有深度理解,在规划建设、资源管理、监控告警、故障管理、故障处理、变更升级等环节的平台化、自动化和智能化有工程实践。