NVIDIA Deep Learning Compute(深度学习计算)是一支专注于“算法-软件-硬件”协同设计的 AI 加速团队,以“让 AI 更快、更省、更具扩展性”为使命。从模型创新、软件研发到芯片微架构,从底层算子优化到端到端系统落地,我们的目标是实现全栈技术贯通,持续驱动 GPU 架构迭代演进。团队现开放多个核心技术岗位,期待您的加入。
深度学习计算性能优化架构团队
团队介绍
我们专注于 AI 计算极致性能优化,采用全栈方法深入分析 AI 算子与系统特征。在第一性原理的指导下持续驱动现有产品性能提升,推动下一代架构改进,实现算法、软件及硬件架构的协同演进。凭借对 AI 应用与 GPU 架构的深刻理解,团队不断推动 GPU 架构创新,全面提升算力高效利用、性能与产品竞争力。
加入我们,从早期构想、架构设计到产品落地,您将全链路参与业界领先的 GPU 和 AI 系统的打造,与架构、软件和业务团队深度协同,通过真实大规模场景中验证并落地您的设计与优化成果。
核心工作方向与岗位
推理架构探索
面向大模型推理数据中心、辅助驾驶、机器人等核心场景,研究架构创新方向,探索算子融合与图级优化策略,开发算子原型,评估新特性对关键工作负载的性能与能效影响,实现软硬件协同设计与联合优化。
性能建模
构建覆盖模型、算法、系统软件与硬件的端到端性能模型,精准刻画大模型推理、训练在全栈上的行为特征,为架构设计与优化决策提供量化依据。
性能预测与产品分析
对当前及未来架构进行性能预测,为产品定位、路线规划与架构取舍提供决策支撑。
性能与能效执行落地
基于微架构模型与仿真平台开展系统化性能分析与调优,联合原型软件验证关键场景,确保 AI 软硬件达到预期性能与能效目标。
推理基准测试
搭建大模型推理端到端基准测试体系,量化性能收益,并与 TensorRT-LLM 团队协作制定优化路线图,推动端到端性能优化落地。
技能要求:
-
对计算机体系结构有坚实的基础和深刻的理解,深入理解软硬件性能分析的方法,并有相关的优化经验;
-
热衷于通过软硬件协同探索性能优化方案;
-
追求卓越与创新,乐于构建工具与基础设施提升分析优化效率;
-
熟练掌握 C++、C、Python 和 Vibe Coding。
基础设施建设
搭建覆盖从仿真模拟到芯片实测的全链路性能分析工具平台,服务 AI 软件与架构团队,提升整体性能分析与优化效率。
技能要求:
-
具备扎实的 Linux 操作系统基础、理解进程线程模型、内存管理、系统调用等核心机制,有在 Linux 环境下进行复杂问题排查的经验;
-
有性能分析工具(profiler)或调试器(debugger)等系统软件的设计或开发经验者优先。
TensorRT 及 TensorRT-LLM 团队
团队介绍
团队主要负责构建覆盖数据中心到端侧的高性能推理引擎体系。围绕 TensorRT 与 TensorRT-LLM 两大核心产品,持续推动大模型与深度学习模型在多样化场景下的极致性能优化与规模化部署。
在大模型方向,团队参与业界领先的 TensorRT-LLM 推理框架研发,支撑超大规模大语言模型(LLM)在多机多卡环境下的高效运行;在通用推理方向,团队深度参与 TensorRT 的核心开发,服务于辅助驾驶、机器人、边缘计算等对性能与能效要求极高的应用场景。团队工作覆盖从底层算子优化、编译器与图优化、分布式推理系统,到工程基础设施(CI/CD、测试、发布)的完整技术链路,并深度协同 NVIDIA GPU 架构演进,实现软硬件一体化协同设计。在这里,您将参与构建业界前沿的 AI 推理系统,推动大模型与生成式 AI 在全球范围内的落地与规模化应用。
1. TensorRT-LLM 开发
(TensorRT-LLM Dev) 向下滑动,查看完整内容
工作方向
TensorRT-LLM 是 NVIDIA 面向 LLM 推理的旗舰开源项目,支撑着全球范围内大模型推理在数据中心的高效部署。团队负责推理引擎架构设计、模型适配、调度策略优化及新一代 GPU 架构的推理特性落地。
技能要求
-
扎实的 C++ 和 Python 工程能力,熟悉大型系统级项目的开发与调试;
-
深入理解 Transformer 架构及主流 LLM 模型(GPT、LLaMA、Qwen、DeepSeek 等);
-
熟悉 LLM 推理的关键技术:KV Cache 管理、量化(INT8、FP8、INT4)、推测解码(Speculative Decoding)、多机多卡推理优化等;
-
了解或使用过推理框架(TensorRT-LLM、vLLM、SGLang 等)者优先;
-
了解 CUDA 编程模型;
-
加分项:有开源项目贡献经验;熟悉 NVIDIA GPU 架构(Hopper、Blackwell)特性。
2. TensorRT-LLM 基础设施
(TensorRT-LLM Infra)
工作方向
为 TensorRT-LLM 提供构建、测试、CI/CD 与发布的全链路基础设施支持。面对 LLM 推理领域快速的迭代节奏,团队负责保障从代码提交到产品发布的高效、高质量交付流水线,同时探索智能体驱动的智能化 CI/CD 工作流。
技能要求
-
熟悉 CI/CD 工具链(Jenkins、GitLab CI、GitHub Actions 等),有大型单体仓库(mono-repo)构建系统经验;
-
扎实的 Python 或 Bash 脚本能力,熟悉 Linux 系统管理;
-
了解容器化技术(Docker、Kubernetes)及 GPU 集群环境下的任务调度;
-
熟悉软件测试策略:单元测试、集成测试、回归测试、性能基准测试;
-
有处理复杂依赖管理和版本发布流程的经验;
-
加分项:有 AI 或 ML 项目的 DevOps 经验;对智能体 CI/CD(智能体驱动的自动化测试与修复)感兴趣。
3. TensorRT 开发
(TensorRT Dev)
工作方向
NVIDIA TensorRT 深度学习推理引擎的核心开发团队。当前重点聚焦端侧推理场景包括智能驾驶、具身智能、边缘 AI 等对延迟、功耗和部署效率有高要求的领域。团队负责推理引擎的图优化、算子融合、内存管理以及面向新兴端侧硬件的推理方案设计与实现。
技能要求
-
熟练掌握 C++,有高性能系统开发经验;
-
深入理解深度学习推理流程,包括模型导入、图优化、算子融合、内存规划等;
-
熟悉 CUDA 编程及 GPU 计算架构,有性能优化经验;
-
了解端侧 AI 部署的约束与挑战,包括实时性要求、内存受限、多模型并发调度;
-
熟悉计算图中间表示(IR)和编译器优化概念者优先;
-
加分项:有辅助驾驶、机器人或嵌入式 AI 领域经验;了解 NVIDIA Orin 或 Thor 等端侧平台。
4. TensorRT 基础设施
(TensorRT Infra)
工作方向
为 TensorRT 推理引擎提供构建、测试与发布基础设施。团队维护支撑 TensorRT 跨平台(云端和端侧)构建的完整 CI/CD 体系,确保引擎在多种 GPU 架构和操作系统上的质量与性能一致性。
技能要求
-
熟悉 CMake、Ninja 和 Bazel 等构建系统,有复杂 C++ 项目构建经验;
-
扎实的 CI/CD 工程能力(Jenkins、GitLab CI),熟悉多平台交叉编译与测试;
-
了解容器化部署和 GPU 集群资源管理;
-
有大规模自动化测试框架的设计与维护经验。
大模型框架、推理优化、
AI 编译器、智能体系统开发团队
团队介绍
团队主要负责 AI 全栈优化工作,涵盖底层算子代码生成及算子编程模型探索,端到端模型训练及推理性能优化,和模型系统联合优化方向。团队技术工作涉及到未来软硬件架构及算法策略探索,关键基准评测优化支持,和生产软件落地,能够在技术前沿探索和实际生产落地场景影响力之间建立紧密的协同关系。
1. 大模型推理优化
工作方向
主要关注的是通过模型优化的手段进一步提升 TensorRT-LLM 的性能表现,包括低比特量化、KV Cache 量化、稀疏化等等,也包括类似于推测解码、稀疏注意力这类模型系统联合优化的工作内容。
技能要求
-
扎实的数理逻辑背景,批判性思考能力;
-
扎实的计算机系统知识背景,编程素养;
-
拥有模型量化、稀疏化、推测解码、稀疏注意力等推理技术相关模型优化背景者优先;
-
具备跨系统模型联合优化分析及解决问题背景者优先。
2. AI 编译器开发工程师 向下滑动,查看完整内容
工作方向
主要是从事 cuTile 编译器以及 CuTe DSL 底层编译器的开发工作,具体来说包括编译器和 runtime 两部分:
-
AI 编译器:主要包括如何使用 AI 编译器技术,在 NVIDIA 平台上,基于 DSL 输入,以自动化或半自动化的方式生成高效的计算密集、访存密集的算子 Kernel;
-
Runtime:为 AI 编译器生成的代码提供高效执行支撑,包括编译结果的序列化及反序列化、编译缓存管理、结合硬件新特性完成高效的 Kernel 运行时参数的设定(比如 TMA 的描述符)、实现不同硬件平台的兼容等。
技能要求
-
扎实的数理逻辑基础和批判性思考能力;
-
扎实的计算机系统知识背景,良好的编程素养及工程背景;
-
对计算机体系结构知识有较深入的理解和认识;
-
拥有深度学习编译器相关背景(MLIR、TVM、XLA、OpenAI Triton、TileLang 等)优先;
-
拥有通用 GPU 或其他 AI 硬件加速器上算子优化经验者优先。
3. 智能体系统开发
工作方向
开发和改进基于 LLM 的智能体,提升 GPU 性能优化能力。与 CUDA 和 GPU 性能专家合作,将领域知识编码到智能体工作流中。
技能要求
-
学习能力强:能快速上手陌生领域;
-
编码能力强:熟练使用 Python 或 C++,代码整洁、可维护;
-
深厚专业知识:在相关领域(深度学习系统、GPU 性能或软件基础设施)至少有一项深入专长;
-
愿意尝试新事物:愿意学习 LLM 和智能体开发,将专业能力应用到新领域。
强化学习团队
团队介绍
聚焦大模型在 NVIDIA GPU 上的强化学习(RL)落地与优化,围绕推理系统、训练平台和任务算法三条主线协同建设端到端方案,覆盖 TensorRT-LLM 推理与性能优化、NeMo RL 基础设施和 LLM RL 任务与算法方法论,为公司内外典型工作负载提供可用、可扩展、可复用的 RL 平台与实践经验。
1. TensorRT-LLM RL 集成与性能
工作方向
以 TensorRT-LLM 为核心,打造在 VeRL 等框架下可稳态运行的 RL rollout 引擎,支持 Qwen3 Dense、混合专家(MoE)、视觉语言(VL)等主流模型。规划 TensorRT-LLM 加 VeRL 集成路线,明确模型支持、跨节点推理(cross-node inference)、FP8 与 NVFP4 refit、IS 与 RS、VLM 等优先级与交付边界。
在单机多卡、多机多卡场景下,围绕 CUDA Graph、DeepEP、混合精度、长上下文和 MoE 通信优化推理路径,提升吞吐、降低延迟与显存。基于 Ray + torch.distributed 提升多节点稳定性,支撑压力测试与生产工作负载,并在典型外部任务上沉淀可复用 RL 方案。
技能要求
-
工程与系统基础:扎实的 C++ 或 Python 能力,具备现代工程实践经验(代码结构、测试、性能分析);
-
GPU 与分布式推理:了解 CUDA 编程、GPU 内存与执行模型;具备多卡、多节点推理、通信优化(如 NCCL、DeepEP)、CUDA Graph 等经验者优先;
-
大模型推理框架经验:熟悉 TensorRT-LLM、vLLM、SGLang 等至少一种 LLM 推理框架,在配置、调优、问题排查方面有实践;
-
可靠性与问题排查能力:能在多版本、Ray、集群调度等复杂环境中定位内存不足(OOM)、性能回退与不稳定问题,并形成可复用脚本与文档。
2. NeMo RL 项目与基础设施方向 向下滑动,查看完整内容
工作方向
-
以 NeMo RL 为核心,建设统一的 RL 训练与 rollout 基础设施,为 Nemotron 等大模型提供可复用平台;
-
完成并演进 DTensor v2、MCore、Automodel 等后端支持,覆盖 TP、CP、SP 以及 EP、PP、FP8 训练和 LoRA 能力,让 Nemotron-3、DeepSeek-V3.x 等在统一栈上可用;
-
重构 RL 数据与 LoRA 管线,打通 SFT、GRPO、DPO 加 LoRA 的端到端流程,提升可复现性与可维护性;
-
推进 NeMo-Gym 等环境体系,用统一接口封装 LLM-as-judge、CPU/IO 密集和多轮复杂环境,并在 Transformers、MCore、vLLM/SGLang 升级中持续维护稳定性。
技能要求
-
分布式训练与框架经验:熟悉 PyTorch 分布式(DTensor、FSDP、MCore 等)和模型并行(TP、PP、CP、SP),有实际项目落地经验;
-
RL 框架与数据管线:了解 SFT、RLHF 和 RLAIF 流程,熟悉 NeMo RL 或类似框架的数据处理、LoRA 流程和 checkpoint 管理;
-
平台与工具建设:能在 CI、夜间测试、性能测试、环境封装等方面搭建通用基础设施,保障版本升级与新特性引入的稳定性。
3. LLM RL 任务与算法方向
工作方向
-
围绕 RL Scaling Laws、异步 RL、多轮推理与 proof-style 任务、LLM-as-judge 等方向,提供任务与算法层面的方法论与实验依据;
-
在中大规模模型上系统研究 batch size、训练步数、序列长度、异步程度、重放缓冲区规模等因素对收敛与最终性能的影响,指导算力与实验规划;
-
将多轮证明与 proof-with-judge 工作流迁移到 NeMo-Gym 和 NeMo-RL,分析长上下文、多轮交互、异步 rollout 下的策略与奖励设计;
-
结合 NeMo-Eval、ComputeEval 等评测平台,对 GRPO、GSPO、DAPO、CISPO 等算法在数学、代码、智能体任务上的表现进行系统比较,指导算法与系统组合选型。
技能要求
-
算法与数学基础:良好的概率统计、最优化与深度学习基础;熟悉策略梯度、离策略学习(off-policy)、重要性采样(importance sampling)等概念及其在大模型 RL 中的变体;
-
大规模实验设计与分析:能独立设计 RL Scaling、异步 RL、多轮推理等大规模实验,处理高方差和不稳定结果,并提炼可操作结论;
-
任务与评测视角:对数学、代码、智能体任务和相关基准有兴趣,愿意从任务、损失函数、评测指标与系统约束综合设计方案;
-
工程实现能力:能在 NeMo-RL、VeRL 和 NeMo-Gym 等框架中,将算法原型落地为可复现脚本与配置,并与系统团队协同打通端到端链路。
算子编程、算子开发
与 Infra 及测试团队
团队介绍
关注在 NVIDIA GPU 芯片上针对深度学习领域实现极致高性能算子开发,包括矩阵乘法(GEMM)、卷积运算和注意力机制(Attention)、MoE、融合算子开发和优化,深入了解 GPU 架构细节,实现软硬件协同优化探索。开源 CUTLASS 框架,包括 C++ 和 CuTe DSL,帮助更多开发人员理解 GPU 新架构功能,实现高定制化高性能算子开发。
1. CuTe DSL 开发工程师
工作方向
负责 Python 原生 GPU Kernel 开发语言 CuTe DSL 的设计、实现与优化,以及相关 MLIR 方言、Lowering Passes 的开发。在提升 Kernel 编译速度的同时达到与 CUTLASS C++ 相当的性能结果,实现高效的软硬件协同。
技能要求
-
计算机科学与技术、计算机软件或相关领域硕士或博士毕业生;
-
精通 Python,熟练掌握 C++,有 DSL、编译器、代码生成相关开发经验;
-
精通 MLIR、LLVM 技术栈,熟悉 IR 设计与 Pass 优化;
-
深入理解 CUDA GPU 编程模型及微架构,熟悉 GPU 性能分析工具与优化方法;
-
了解高性能计算核心抽象:Layout、Tile、MMA、TMA 等(CuTe 体系知识);
-
出色的沟通协作能力,能与架构、研究、软件产品团队及开源社区高效推动优化落地。
2. 算子开发工程师
工作方向
-
作为高性能 CUDA 算子开发团队成员,负责深度学习训练和推理中核心的计算单元的设计、实现与优化;
-
针对不同 GPU 芯片,开发并发布高性能算子至 CUTLASS、cuDNN、cuBLAS 等 NVIDIA 核心算子库;
-
当前主要覆盖 GEMM、Attention(MHA、GQA、MLA)、MoE、集合通信(All-Reduce、All-to-All)等算子,并随主流模型架构的演进不断拓展;
-
团队直接参与 NVIDIA 下一代 GPU 架构的硅前和硅后 Kernel 开发与优化,以及软硬件协同设计,助力算子性能不断突破。
技能要求
-
熟练掌握 C、C++ 和 Python,能独立完成高性能 Kernel 的设计、实现与调优;
-
深入理解 GPU 架构及微架构(SM 结构、warp 调度、内存层级 Register、Shared Memory、L2、HBM、指令流水线);
-
熟悉性能分析工具(Nsight Systems、Nsight Compute)及 roofline 性能建模方法论,具备基准测试与瓶颈分析实战经验;
-
了解深度学习核心算子(GEMM、Attention、Softmax、LayerNorm 等)的计算特征与优化策略;
-
有 CUTLASS、CuTe 或类似 GPU 算子库开发经验者优先。
3. 基础架构工程师(Infra)
工作方向
负责为高性能 CUDA 算子的开发与交付提供构建、测试和性能回归基础设施,包括大型 mono-repo 管理、代码仓库维护、硬件资源管理,以及 CI/CD 自动化技术的开发与优化。通过自动化技术提升团队开发效率,并维护 CUTLASS、CuTe DSL 等多个子项目,确保每一次算子变更都经过正确性验证和性能回归检测。
技能要求
-
熟悉大规模 C++ 和 CUDA 项目的构建系统(如 CMake、Ninja),具备 mono-repo 管理经验;
-
扎实的 CI/CD 工程能力,能够设计和维护复杂的多阶段流水线(Jenkins 或 GitLab CI);
-
熟练掌握 Python 和其他脚本语言,能为开发团队提供效率工具;
-
熟悉常用的 DevOps 工具和技术,包括但不限于 Git、Jenkins、K8S、CMake,数据库管理;
-
了解 NVIDIA GPU 软件栈(CUDA Toolkit、Driver、cuDNN)的版本管理和兼容性;
-
熟悉容器化 GPU 测试环境,了解性能数据的采集、存储和可视化;
-
熟悉常用的 AI 智能体技术和应用;
-
出色的沟通协作能力,有与多个团队合作的经验。
4. 功能测试工程师
工作方向
负责 NVIDIA CUTLASS DSL 测试框架的开发,制定和优化产品的测试策略,保证基于 MLIR 的编译流水线及相关功能覆盖框架的端到端代码质量,并负责自动化测试、性能基准测试与回归检测,确保每次算子变更都经过严格的正确性与性能回归验证。
技能要求
-
熟练掌握 Python 和脚本语言;
-
丰富的测试工具开发和使用经验,熟悉产品测试的最佳实践;
-
有 GPU 环境下自动化测试的经验,包括正确性测试、性能基准测试、回归检测;
-
熟悉常用的 AI 智能体技术和应用;
-
出色的沟通协作能力,有与多个团队合作的经验。
5. 性能测试优化工程师
工作方向
GPU Kernel 性能分析与保障团队,构建数据驱动的自动化工作流来检测、定位和防止深度学习核心算子的性能回退。团队与 Kernel 开发、编译器、基础设施和架构性能团队紧密协作,负责端到端的性能验证、回归分析和优化建议闭环,确保每一代 GPU 平台上关键算子的性能表现持续达标。
技能要求
-
理解计算机体系结构基础:延迟/吞吐、内存层级、并行计算,有并行编程经验(CUDA、OpenMP、pthreads 等);
-
扎实的 Python 编程能力,有性能测试自动化和数据分析经验;熟悉 C 和 C++ 性能导向的代码阅读与调试;
-
有性能分析工作流经验:性能分析方法论、测量可复现性、噪声控制、回归定位与归因;
-
能从大规模运行结果中提炼可操作的洞察:统计分析、后处理、可视化与数据挖掘;
-
善于跨团队协作,能推动性能问题从发现到定位到修复的完整闭环;
-
加分项:具备高性能 Kernel 或数学库经验(如 GEMM、Attention、CUTLASS 等);有 CI 或 nightly 性能回归系统、dashboard 或大规模性能分析平台的建设经验;熟悉模拟器及解析建模等性能表征方法。
训练及推理加速库团队
团队介绍
训练及推理加速库核心工程团队,主要负责在新一代 GPU 上打造高性能、可落地的深度学习基础算子库,为大规模训练和推理提供底层算力支撑。
1. FlashInfer 开发
工作方向
-
FlashInfer 团队面向大模型推理场景,围绕 NVIDIA GPU 打造高性能、开源的 LLM 内核平台;
-
团队核心工作包括,设计与实现 Attention、KV-Cache、GEMM、MoE、Norm、采样、通信等关键算子内核,在 vLLM、SGLang、TensorRT-LLM 等推理框架中提供端到端性能优势;
-
利用 TileIR、CuTe、CUTLASS、TensorRT-LLM-Gen 等编译与 DSL 技术,把真实 LLM 工作负载映射为高效 GPU Kernel。
技能要求
-
熟练掌握 C++ 和 CUDA,能在大规模工程代码中开展设计、实现与重构;
-
具备良好的工程习惯:测试优先、文档清晰、习惯代码检查与设计评审;
-
理解 GPU 并行编程模型(线程层次结构、内存层次、访存与带宽/延迟);
-
对 GEMM、Attention、MoE、Norm 等典型算子有基本数值与性能直觉;
-
了解 Transformer 和 LLM 推理流程(prefill、decode、KV-Cache、batch 并发);
-
能在模型 – 框架 – FlashInfer – GPU 多层之间定位瓶颈,做取舍。
2. cuDNN 软件开发
工作方向
维护和扩展 cuDNN Core、Frontend、Heuristics 模块(如 Graph API、动态 shape 支持等)。跟进新 GPU 和 CUDA 版本,在内部 Bring-up、修正兼容性与性能问题,支撑框架集成与 MLPerf 等场景。
技能要求
-
深度学习基础算子内核工程;
-
需要扎实的 C++ 和 CUDA 基础,熟悉 GPU 并行编程和数值计算;
-
新架构和混合精度 Bring-up 工程;
-
框架集成与客户解决方案工程;
-
测试 CI 和质量工程。
简历投递渠道
如有兴趣可以将简历发至:
SH-Recruitment@exchange.nvidia.com
并请注明投递岗位。
扫描下方二维码
或点击“阅读原文”查看更多岗位:
扫描下方海报二维码,观看 NVIDIA CEO 黄仁勋将于北京时间 6 月 1 日(星期一)上午 11:00 在 GTC 台北大会现场发表的主题演讲,揭晓驱动新一代 AI 的技术突破。
评论区
登录后即可参与讨论
立即登录