工作地点:
北京市,上海市,四川省-成都市
工作职责:
1、交付工具研发与支撑
负责交付相关工具的研发、迭代与优化,提升工具的效率与质量,为一线交付团队提供技术支撑与赋能,保障工具满足业务场景需求。跟进工具在实际交付场景中的应用效果,收集一线团队反馈并持续改进,确保工具适配业务复杂度与规模化交付需求。
2、新产品交付保障
深度参与新产品交付流程设计,结合工具能力与业务规范,制定适配的交付方案,确保新产品顺利落地交付。验证新产品交付环节的可行性,提前识别潜在风险并推动解决,保障交付过程合规、高效。
3、交付方案评估与技术把控
参与弹性计算产品交付方案的评估,从技术可行性、合规性、风险控制等维度进行把关,确保方案符合在线网投产的规范要求。对交付过程中的关键技术节点进行审核与确认,避免因方案漏洞导致的投产问题,保障计算产品按标准上线。
4、运维体系方案制定
制定计算产品(如虚拟机、云主机等)的全生命周期运维方案,涵盖监控体系搭建、运维工具开发、定期巡检机制、变更管理流程等,形成标准化操作规范。结合业务特性优化运维方案,确保方案适配现网复杂度,提升运维效率与风险防控能力。
5、技术定位与快速排障
针对云主机等计算产品的现网问题,进行精准技术定位与快速排障,依托监控数据与工具能力,缩短故障处理时间。总结常见故障模式与解决方法,沉淀排障经验并赋能团队,提升整体问题响应效率。
6、端到端业务稳定性保障
从资源交付、日常运维到故障处理,端到端把控计算产品的现网运行状态,联动跨团队(如网络、存储、安全)解决影响业务稳定性的问题。建立业务稳定性指标监控体系,定期复盘现网运行数据,推动优化措施落地,持续提升业务连续性与可用性。
任职资格:
1、大学本科以上学历,并取得相应学位,计算机及相关专业优先
2、拥有 5 年以上云主机产品交付与运维经验,熟悉云主机全生命周期管理(部署、配置、监控、故障处理等)。对 Kubernetes 有深入理解,具备丰富的容器集群交付与运维实践经验,熟悉容器编排、调度及云原生生态工具。
3、精通 Ansible 等配置管理工具,能高效实现批量部署、配置变更等自动化运维场景。具备扎实的开发能力,熟练掌握Golang、Python 编程语言及 Shell 脚本,可独立开发运维工具或自动化脚本。
4、拥有 MySQL、消息队列(如 RabbitMQ/Kafka)、etcd、Mongo 等中间件的交付与运维经验,能独立分析定位相关组件的技术问题并推动解决。
5、具备良好的跨团队沟通协调能力,能高效对接客户与内部资源。拥有较强的抗压能力,可应对高并发业务场景、紧急故障处理等高强度工作需求。