工作地点:
北京市
工作职责:
1.主导天翼云大规模基础设施(含数据中心现场/网络/服务器/网卡等领域)的监控自动化管理平台的架构设计与工程化落地,打造业界领先的基础设施运维平台;
2.参与基础设施运维平台研发项目管理,对接理清本平台和云公司周边业务平台生态关系,推动平台落地对接;
3.构建统一的全链路观测体系(metrics、log、event、trace),持续迭代优化产品体验;
4.实现基础设施全生命周期管理平台化,构建一体化的风险、告警、异常、故障等健康管理体系,运用巡检、诊断、预案自愈等手段缩短MTTR,保障自研产品及方案在生产环境的稳定性;
5.持续跟进了解业界前沿技术方案,结合公司实际情况,借助基础设施自研的灵活性,探索监控自动化产品建设落地形态方式。
任职资格:
1.大学本科以上学历,并取得相应学位,计算机相关专业,并有8年及以上相关领域工作经验;
2.扎实的计算机软件基础,熟悉Linux操作系统,熟练掌握Go/Python/Java中至少一门程序开发语言;
3.有较好的架构设计、代码开发经验,能够制定可拆解落地的目标,并能够在技术和产品设计上指导团队成员;
4.了解数据中心基础设施的常用监控技术,熟悉IPMI、SNMP、syslog、netconf、telemetry等两种以上采集控制协议技术;
5.熟悉监控领域开源技术栈,如Prometheus/VictoriaMetics/ELK/Opentelemetry/Clickhouse等;
6.对基础设施全生命周期管理有深度理解,在规划建设、资源管理、监控告警、故障管理、故障处理、变更升级等环节的平台化、自动化和智能化有工程实践。