工作地点:
上海市
工作职责:
1、负责AI应用产品系统运维工作,提升业务稳定性和工程效率,与业务方保持高效沟通;
2、负责AI应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应;
3、参与AI应用业务服务端架构的高可用设计和性能优化,保证高效可靠的业务迭代;
4、负责线上重大问题排查,紧急事故处理,后续事故分析与优化;
5、负责应用故障演练,应急预案、SOP手册编写,确保故障时业务能快速恢复;
6、负责应用高可用建设及管理,如限流、降级、容错、容灾、多活,确保应用质量;
7、建立SLA评估标准,计算故障对SLA影响,并对SLA后续改进措施进行跟进;
8、负责运维自动化工作,确保运维安全,提升运维效率。
任职资格:
1、5年及以上互联网公司运维相关经验,具有设计部署混合云能力,熟悉SRE和DevOps运维体系者优先;
2、熟悉操作系统、容器技术、kubernetes架构,可以独立处理复杂的k8s集群问题;
3、熟练掌握Shell、Python、Go、JAVA等至少两种语音,可独立开发设计自动化运维系统;
4、具备SRE和DevOps运维体系从零到一的搭建经验,具备丰富的CI/CD、灰度、灾备、熔断落地经验;
5、熟练掌握常见网络协议及WEB中间件,如TCP/IP、HTTP、Nginx、mysql、消息队列及对象存储;
6、良好的troubleshooting思路与经验,能够快速解决线上事故;
7、具有大规模微服务及云原生监控体系落地经验;
8、具备高效团队协作能力,善于沟通,能够推动项目顺利进行;
9、有较强的学习能力,能快速掌握新技术,适应快速变化的工作环境;
10、具备良好的文档编写习惯,能清晰记录和分享技术经验。