招聘动态
更多>>
高级后端开发工程师(智算容器)(J11074)
  • 招聘类别:
  • 活水岗位
  • 工作性质:
  • 全职
  • 招聘人数:
  • 若干
  • 发布时间:
  • 2026-02-03
  • 截止时间:
  •  

  • 工作地点:

    北京市,广东省-广州市,四川省-成都市


    工作职责:

    1、负责天翼云智算容器大规模大模型训练 / 推理的核心架构设计,基于 Kubernetes 生态构建支持万卡级 GPU/NPU/其它国产卡等异构资源集群的容器化底座,覆盖资源调度、任务编排、容器运行时管理全链路;
    2、负责天翼云智算容器大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、万卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等;
    3、负责异构计算芯片落地实际推理业务,适配异构计算芯片特性,降低推理时延,提高推理吞吐,负责推理加速包括不限于KVCache、PD分离、智能路由等加速方法的研发;
    4、负责异构计算芯片落地实际训练业务,根据芯片计算、通信特性,优化显存占用,提高训练吞吐;
    5、负责构建和优化大规模模型的强化学习(RL)、监督微调(SFT)及端到端训练的完整工程链路;


    任职资格:

    1、大学本科及以上学历,并取得相应学位,计算机等相应专业优先;
    2、五年及以上工作经验,其中至少3年以上容器研发经验,熟悉Kubernetes架构及核心概念。
    3、了解业界常用的大语言模型推理加速框架,如SGLang,vLLM,MindIE,TensorRT-LLM等;
    4、、了解模型推理加速的研究和技术进展,包括但不限于KVCache、PD分离、模型量化、剪枝、TensorRT推理优化等;
    5、具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯;
    6、具有独立解决问题的能力,良好的团队合作精神,具备优秀的复杂问题拆解能力;
    7、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;