工作地点:
北京市,广东省-广州市,四川省-成都市
工作职责:
1、负责天翼云智算容器大规模大模型训练 / 推理的核心架构设计,基于 Kubernetes 生态构建支持万卡级 GPU/NPU/其它国产卡等异构资源集群的容器化底座,覆盖资源调度、任务编排、容器运行时管理全链路;
2、负责天翼云智算容器大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、万卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等;
3、负责异构计算芯片落地实际推理业务,适配异构计算芯片特性,降低推理时延,提高推理吞吐,负责推理加速包括不限于KVCache、PD分离、智能路由等加速方法的研发;
4、负责异构计算芯片落地实际训练业务,根据芯片计算、通信特性,优化显存占用,提高训练吞吐;
5、负责构建和优化大规模模型的强化学习(RL)、监督微调(SFT)及端到端训练的完整工程链路;
任职资格:
1、大学本科及以上学历,并取得相应学位,计算机等相应专业优先;
2、五年及以上工作经验,其中至少3年以上容器研发经验,熟悉Kubernetes架构及核心概念。
3、了解业界常用的大语言模型推理加速框架,如SGLang,vLLM,MindIE,TensorRT-LLM等;
4、、了解模型推理加速的研究和技术进展,包括但不限于KVCache、PD分离、模型量化、剪枝、TensorRT推理优化等;
5、具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯;
6、具有独立解决问题的能力,良好的团队合作精神,具备优秀的复杂问题拆解能力;
7、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;