工作地点:
北京市,上海市
工作职责:
负责天翼云公有云智能体大模型推理加速核心技术研究与工程化落地,聚焦云计算场景下大模型推理效率瓶颈突破,为公有云、私有云等全栈云计算产品注入高性能推理能力,支撑AI应用规模化商用。
1. 主导大模型推理加速核心技术研发,覆盖模型压缩(量化、蒸馏、结构裁剪)、推理框架优化(计算图调度、算子融合/替换)、异构硬件适配(GPU/DPU/CXL等硬件原语利用)等方向,构建端到端高效推理技术体系;
2. 负责推动推理加速技术向云计算产品深度集成,设计“硬件-框架-模型”协同优化方案,解决高并发请求、低延迟响应、资源成本管控等场景下的推理性能痛点;
3. 负责攻坚复杂场景推理性能瓶颈,针对长上下文理解、多模态推理、分布式推理(多卡/多机)等场景,研发创新性优化策略(如动态批处理、KV缓存优化、GPU/CPU推理调度算法),提升推理吞吐量、降低端到端时延;
4. 负责跟踪全球推理加速技术前沿(如MLPerf推理赛道技术、硬件厂商新特性),转化学术成果为产品竞争力,输出专利、技术白皮书及行业标准级技术方案。
任职资格:
1. 大学本科及以上学历,并取得相应学位,计算机科学与技术、人工智能、电子工程、应用数学等理工科相关专业优先;
2. 5年及以上大模型推理加速/AI系统优化/高性能计算领域工作经验,有云计算产品(IaaS/PaaS层)推理性能优化项目经验者优先;在NeurIPS/ICML/MLSys/ACL等顶会发表过推理加速相关论文,或主导开源推理框架(如vLLM、TGI、TensorRT-LLM)核心特性开发者优先;
3. 精通至少一类推理加速技术:量化技术(如AWQ、GPTQ、SqueezeLLM);推理框架(如Triton Inference Server、vLLM Serving);硬件编程(CUDA/ROCm内核开发、DPU SDK适配);分布式推理(张量并行、流水线并行、推理集群调度);
4. 具备强工程落地能力,对技术趋势敏感,能快速捕捉行业前沿(如Gemini/GPT-4o推理优化方向),具备“技术创新→原型验证→产品落地”的全链路思维,擅长跨团队技术协作;
5. 诚实守信、作风踏实严谨、责任心强,具备良好团队协作能力精神,学习能力强,善于解决复杂问题;