工作地点:
北京市,上海市,四川省-成都市
工作职责:
1、从弹性计算产品的底层架构设计、核心功能模块及全流程运营体系(涵盖研发、交付、运维、迭代等环节)切入,通过深度剖析潜在风险点、瓶颈场景及稳定性薄弱环节,输出系统性的稳定性优化指南与技术规范;牵头统筹短期与长期稳定性提升策略的制定,其中短期方案聚焦快速修复现有漏洞、缓解突发稳定性问题、强化应急响应能力,长期方案则致力于构建高可用架构体系、完善自动化运维机制、优化容灾备份策略及推动产品迭代的稳定性预埋,并全程跟进方案的落地执行、效果验证与持续迭代,确保弹性计算产品在业务峰值、异常波动及版本更新等场景下的稳定性达到行业领先标准,为用户提供持续可靠的服务支撑。
2、在跨团队、跨部门协作中,主动牵头建立高效沟通机制与协同链路,针对现网重大故障及潜在隐患问题,通过深度复盘根因、联动多方资源推动问题彻底解决;以全局视角统筹端到端的系统性优化方案设计,方案需涵盖技术层面的架构升级、性能调优、容错能力增强,流程层面的故障响应闭环、变更管控规范、协作链路精简,以及制度层面的责任界定、考核机制与长效监督体系,形成 “技术 - 流程 - 制度” 三位一体的优化体系;同时,精准洞察产品当前稳定性基线与薄弱环节,结合业务发展规划与技术演进趋势,制定清晰可落地的稳定性演进路线图,明确阶段目标、关键举措与验收标准,推动产品稳定性从 “被动保障” 向 “主动防御” 迭代升级,实现长期可持续的高可用状态。
3、能够为团队内的运维工程师及运维开发工程师提供深度技术赋能与专业指导,聚焦快恢工具、交付变更工具、问题定位工具等核心运维工具链的能力升级:牵头推动工具的平台化建设,实现工具功能模块化、接口标准化、操作可视化,提升工具的复用性与规模化支撑能力;强化工具的可观测性体系,通过埋点规范制定、监控指标体系搭建、日志链路打通等方式,实现工具运行状态、调用链路及异常行为的全维度可视可追溯;推动业务巡检能力的标准化落地,包括制定统一的巡检指标阈值、规范巡检流程与周期、输出标准化巡检报告模板,确保巡检覆盖全面性与结果一致性。通过系统性的技术指导与能力建设,提升团队工具链的成熟度与运维效能,为产品稳定性保障与业务高效运转奠定坚实基础。"
任职资格:
1、大学本科及以上学历,并取得相应学位,计算机相关专业优先
2、具备 8 年以上运维工作经验
3、容器化与云原生技术
精通 Docker/K8S 容器化平台及底层技术原理、架构,熟悉云原生生态体系;
熟练运用 K8S 运维工具(kubectl、Helm、kubeadm、Nacos、ArgoCD、Rancher、KubeSphere 等);
深入理解 Flannel、Calico 等网络模型,能独立定位并解决深层次的 K8S 集群、系统及网络问题。
4、运维工具与开发能力
熟练掌握 Golang、Python、Shell 中的至少一种编程语言;
熟练使用主流运维管理工具(Ansible、Puppet、SaltStack 等)及监控 / 日志工具(Prometheus、ELK 等)。
5、虚拟化与弹性计算技术
精通虚拟化技术,对业界弹性计算平台的架构设计、核心功能及技术特性有全面且深刻的理解。
6、基础设施与云平台知识
具备数据中心、网络架构及 GPU/CPU 软硬件相关知识;
拥有公有云产品运维管理经验,熟悉云平台运维逻辑与实践。
7、稳定性建设能力
对稳定性建设有深刻认知,能结合业务环境制定全面的稳定性治理方案,并推动落地与验收。
8、项目全生命周期管理能力
具备丰富的项目运作经验,可独立完成从前期调研、方案设计、可行性分析、资源规划,到项目推进、交付验收及后期运维管理的全流程工作。
9、综合素养要求
具备良好的内外部沟通能力、团队协作能力,能高效推动跨团队协作;拥有较强的抗压能力与持续学习能力,适应技术快速迭代;具备高度的责任心、主动性和 Owner 意识,能以结果为导向推动工作落地。"