跳转至

Jensen Huang 的未来愿景:从 CUDA 到 Physical AI

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于 Jensen Huang 访谈内容整理
来源 Cleo Abram
日期 2026-04-02

Jensen Huang 的未来愿景:从 CUDA 到 Physical AI

访谈定位:这不是公司宣传,而是计算范式叙事

这场 63 分钟访谈的价值,不在于季度业绩,也不在于单一芯片参数,而在于 Jensen Huang 对“计算范式迁移”的连续叙述:从图形并行计算到通用并行计算,再到由 AI 驱动的软件和产业重构。

主持人 Cleo Abram 的提问策略也很明确:跳过财务和资本市场话题,直接追问三个层面。

  • 过去:NVIDIA 为什么会从游戏图形公司变成 AI 基础设施核心公司。
  • 现在:为何深度学习会成为主导范式,以及它如何改变软件栈。
  • 未来:Physical AI、机器人、能耗约束与个人决策。

开场主张

Jensen 在最开头给出高置信度判断:“Everything that moves will be robotic someday, and it will be soon.”

这句话的含义不是“所有设备都马上 humanoid 化”,而是“可感知、可决策、可执行”的自动化能力会渗透到移动系统与工业系统中,并在近几年呈加速态势。

访谈的技术密度

尽管该视频面向大众,但实际覆盖了多层技术议题:

  • 计算架构:CPU serial 与 GPU parallel 的角色分化。
  • 编程模型:CUDA 如何降低并行计算门槛。
  • 学习范式:AlexNet 之后的 Software 2.0。
  • 训练与部署:从数据中心到个人 AI supercomputer。
  • 机器人基础设施:Omniverse + Cosmos 的组合逻辑。
  • 安全与治理:将 AI safety 分解为工程可执行问题。

本章小结

本访谈可被视为 NVIDIA“平台战略”的对外说明:核心不是押注某个热点应用,而是构建可持续承载下一代算法与产业落地的通用计算平台。

CUDA 的历史性决策:把并行能力从“图形技巧”变成“通用基础设施”

从“把科学问题伪装成图形问题”到标准化接口

Jensen 回忆了早期 GPGPU(General-purpose computing on GPU)阶段的尴尬:研究者必须“欺骗”图形流水线,让 GPU 误以为自己在做图形任务,才能借用其并行吞吐。这个路径能跑通实验,但无法形成工程生态。

CUDA 的决定性价值在于:把 GPU 编程从图形 API 语义中解耦,转为通用语言和通用开发工具链。访谈里他强调“你可以用 C 去告诉 GPU 要做什么”,本质上就是在做“开发者生产函数”的提升。

CUDA 作为软件层,把 GPU Program Execution 对外开放

来源:视频画面时间区间:00:08:29–00:08:40。

If you do not build it they cannot come

Jensen 给出平台投资的核心逻辑:“If you build it, they might not come; but if you don't build it, they can't come.”

这是典型的先验平台投资:先承受不确定性,再换取生态上限。CUDA 在诞生时并没有“确定的大客户合同”,但它提前铺设了后来 AI 爆发所需的软件底座。

为什么 NVIDIA 敢押这么大:量产市场提供“经济可行性”

访谈里一个常被忽略但极关键的点是:Jensen 并非“盲目理想主义”。他反复提到“视频游戏市场的规模”,因为这意味着 GPU 会成为全球高产量并行处理器。高产量带来的不是营销声量,而是两个硬约束:

  • 成本曲线可下探,研究机构和创业团队可负担。
  • 迭代节奏可维持,软件生态不至于断代。

误区:CUDA 的价值只在“性能提升”

如果只把 CUDA 理解为“让程序跑快一点”,会低估它的历史意义。CUDA 的真正价值是把并行计算从“高手手工活”变成“可教学、可复用、可规模化的工业能力”。这类能力转移通常比单次性能提升更有长期复利。

本章小结

CUDA 不是一个工具发布,而是一次平台级组织承诺。它把 GPU 从“图形芯片”重定义为“通用并行计算底座”,为后续 AI 产业化提供了先决条件。

AlexNet 时刻:Software 2.0 从研究突破转为产业信号

为什么 2012 年成为拐点

访谈重提了 2012 年 ImageNet 竞赛中 AlexNet 的压倒性结果。更重要的是 Jensen 描述了 NVIDIA 当时的内部情境:公司自己也在做计算机视觉,但传统方法进展受阻,AlexNet 的突破等于在内部痛点上“直接击中”。

访谈中展示 AlexNet 论文封面,强调其范式意义

来源:视频画面时间区间:00:11:20–00:11:30。

从“编程”到“训练”的迁移

Jensen 对该迁移的定义可以简化为:

  • Software 1.0:人写规则,机器执行规则。
  • Software 2.0:人给数据,机器学习规则。

当问题规模和复杂性超过手写规则可维护边界时,2.0 路径会持续侵蚀 1.0 领域。这也是后续 LLM 爆发能迅速跨行业扩散的原因。

“Reasoned hope”与二次确认

Jensen 用“reasoned hope”形容当年的判断:既不是无证据乐观,也不是保守等验证,而是在工程与市场约束内做高赔率投资。AlexNet 的出现给了 NVIDIA 二次确认:

  • 并行硬件路径方向正确。
  • 训练型工作负载将成为长期主流。
  • 软件生态应围绕学习系统而不是固定算法设计。

误区:AlexNet 只是“某个模型赢了比赛”

把 AlexNet 看成一次 benchmark 胜利,会错过核心信息。真正被验证的是“数据 + 计算 + 可扩展模型”的共同规律,以及 GPU 在该规律里的基础设施地位。

本章小结

AlexNet 对 NVIDIA 的意义不是“蹭到热点”,而是确认了其十年前下注的 CUDA 路线能够承载下一代计算范式。

从 LLM 到多模态:NVIDIA 的统一计算观

Jensen 的核心假设:可扩展性尚未触顶

访谈中 Jensen 持续强调“如果它已经能做到这些,那还能走多远”。这背后是假设:

  • 规模(model/data/compute)继续提升仍有回报。
  • 架构会迭代,但“高吞吐并行 + 高带宽互联 + 软件栈协同”的需求不会消失。

这种假设解释了 NVIDIA 为什么同时押注芯片、互联、系统软件、模型工具链,而不是只做单一部件。

统一任务观:本质是 token 映射

访谈里 Jensen 提到从文本到图像、从文本到动作 token、从生物序列到结构预测。其统一视角是:不同模态都可进入 token 化表示,再通过同一类学习系统完成映射。

这不意味着任务差异消失,而是说明“可复用的计算内核”正在扩大。

案例:AI 反哺图形渲染

Jensen 在后段展示了一个关键案例:4K 场景中并非每个像素都用传统计算硬算,而是计算一部分高质量像素,再让 AI 预测补全其余像素,实现质量与性能协同优化。

通过计算部分像素并用 AI 补全其余像素的渲染思路

来源:视频画面时间区间:00:53:14–00:53:27。

“AI 反哺 AI”的复利结构

GeForce 曾帮助研究界训练 AlexNet;而现在 AI 又回流到图形渲染和系统优化。这类技术回环会产生复利:

  • 上一代应用扩大硬件规模。
  • 更大硬件规模反过来支持下一代模型。
  • 新模型再回流优化原有应用。

本章小结

NVIDIA 的中长期叙事不是“某个大模型会赢”,而是“多模态学习系统持续扩张时,通用并行平台的复用边界会继续扩大”。

Physical AI:Omniverse + Cosmos 的系统组合

从语言常识到物理常识

Jensen 把 Physical AI 的难点说得很直接:机器人不仅要“会说”,还要“懂世界如何运动”。语言模型解决的是语义推断,机器人系统需要额外掌握物理约束、空间关系与执行反馈。

一句话定义 Physical AI

“Everything that moves will be robotic someday.”

这句话在工程上对应三件事:可感知(Perception)、可决策(Planning)、可执行(Control)。任何一环不稳定,系统就无法规模化落地。

为什么要先建“可扩展的虚拟训练场”

访谈中提到,真实世界训练昂贵且慢,机器人硬件还会产生磨损。Omniverse 的价值在于提供可控、可重复、可并行的 3D 物理环境;Cosmos 的价值在于给这些环境提供更丰富的世界先验与场景生成能力。

Omniverse 与 Cosmos 的分工

  • Omniverse:仿真引擎与数字孪生工作台,负责“物理一致性”和“训练执行”。
  • Cosmos:世界模型能力,负责“场景多样性”和“语义-物理桥接”。

二者组合的目标是把机器人训练从“昂贵试错”转为“可工业化迭代”。

误区:有了 world model 就能直接替代仿真

world model 与仿真不是替代关系。前者擅长生成和泛化,后者擅长约束和验证。机器人系统需要“生成能力 + 物理一致性 + 闭环评估”三者并存,缺一不可。

本章小结

Physical AI 的关键不是单点模型性能,而是训练基础设施。Omniverse + Cosmos 代表的是“机器人时代的数据工厂 + 先验工厂”。

AI Safety:把宏大问题拆成工程可执行问题

Jensen 的分层框架

Jensen 在访谈中将 AI safety 拆分为可执行层次,这一做法与航空、汽车、工业控制的安全工程一致:

  • 模型层风险:错误推理、幻觉、对抗性输入。
  • 系统层风险:硬件故障、网络中断、控制链路失效。
  • 使用层风险:欺诈、deepfake、身份冒用、信息操控。

工程导向的安全观

他强调很多风险并非“AI 想作恶”,而是“系统没被正确设计与验证”。因此治理手段应优先落在:

  • 冗余架构(Redundancy)
  • 失效保护(Fail-safe)
  • 持续测试与在线监控

安全不是“模型指标”,而是“端到端责任链”

对于自动驾驶、医疗辅助、工业机器人,模型准确率只是入口指标。实际可用的安全性取决于完整责任链:数据采集、模型训练、部署控制、人工接管、事故复盘。

误区:把 AI safety 简化为“是否禁止某模型”

安全治理若只聚焦模型级封禁,会遗漏大量系统级风险。真正高风险系统的安全来自工程纪律与流程可追溯,而不仅是模型选择。

本章小结

访谈中的 safety 观点可归纳为“把复杂问题转为可验证工程问题”。这套方法论更适合产业落地阶段。

能源约束与硬件迭代:性能竞争的真实边界

计算的物理约束:最终是能量预算

Jensen 在中后段明确指出:计算扩展受限于能源与热。无论是训练还是 inference,本质都要在功耗、散热、延迟与吞吐之间做折中。

为什么“性能提升”越来越依赖系统设计

单纯提升单芯片频率已经不足以支撑 AI 工作负载,必须依赖:

  • 芯片架构优化(并行度、内存层级)
  • 高速互联(跨 GPU/节点通信)
  • 系统级软件调度(编译器、runtime、并行策略)

因此当前竞争是“系统工程竞争”,而非“单器件竞争”。

从数据中心到个人设备:AI supercomputer 的形态下沉

访谈里 Jensen 展示了早期系统,并提到从高价研究设备向更低门槛个人设备演进。这反映了同一趋势:AI 计算会像当年的个人计算一样下沉到更广泛开发者与学生群体。

访谈中回顾早期 AI supercomputer 交付场景

来源:视频画面时间区间:00:36:58–00:37:06。

主持人展示可桌面化部署的个人 AI supercomputer 形态

来源:视频画面时间区间:00:52:33–00:52:45。

关键结论

“AI democratization”不仅是模型开放,更是计算形态和开发工具链向个人可及范围迁移。教育与产业创新速度将因此发生二次加速。

本章小结

AI 竞争已从“谁有更大模型”升级为“谁能在能源约束下持续提供更高系统效率与更低使用门槛”。

Transformer 之后:平台主义为何优于单架构押注

访谈中的核心争论

主持人问到“是否应围绕 Transformer 做专用硬件”。Jensen 给出的是平台主义答案:未来架构会持续变化,甚至可能“barely recognizable as transformers”。在这种前提下,过度专用化会压缩未来创新空间。

NVIDIA 的方法论

不是赌“哪一个架构永远胜出”,而是赌“研究社区会持续发明新结构”。因此平台要保持三种能力:

  • 可编程性(programmability)
  • 可扩展性(scalability)
  • 生态兼容性(ecosystem compatibility)

误区:通用平台一定比专用 ASIC 慢

短期看,专用方案可能在单任务上更极致;但长期看,算法迭代速度和任务迁移成本经常抵消这部分优势。对于快速变化赛道,平台弹性往往比局部峰值更重要。

本章小结

Transformer 争论的本质不是“现在谁快”,而是“十年后谁还能承接未知工作负载”。平台主义在高不确定性环境下更稳健。

产业落地路线图:从模型能力到生产系统

AI Factory 的经济学

访谈虽然没有展开财务细节,但 Jensen 的叙事始终指向同一个方向:未来企业会把“训练与推理能力”视为一种可计量、可运维、可扩容的生产要素。这个逻辑常被称作 AI Factory。

AI Factory 的三个核心指标

  • 有效吞吐:单位时间内可完成多少高质量训练/推理任务。
  • 端到端延迟:从请求到可执行结果的整体时延。
  • 单位结果成本:在质量达标前提下,每个任务的总拥有成本。

如果组织只看峰值 FLOPS 而忽视这三项,就会出现“基准测试漂亮、业务价值平庸”的落地困境。

结合 Jensen 对系统工程的强调,可把 AI Factory 理解为“数据、模型、算力、工程流程”的协同系统,而不是 GPU 堆叠。企业治理层面需要同步建设:

  • 版本治理与回滚机制。
  • 质量基线和红线指标。
  • 灰度发布与实时观测。

误区:以为买到硬件就拥有 AI 能力

硬件只是上限,不是能力本身。真实能力来自“高质量数据 + 稳定流程 + 可度量迭代速度”。没有流程工程,硬件投入会迅速转化为闲置成本。

从 AI Factory 到 Robotics Factory

如果把 Physical AI 视为下一阶段重点,那么机器人系统的交付链条会比纯软件系统更长。Jensen 提到的 Omniverse + Cosmos 组合,本质是为了压缩“真实世界试错成本”,让训练样本和场景覆盖可规模化。

机器人落地的闭环

可执行闭环可以拆成四步:

  1. 在仿真环境中大规模生成任务场景。
  2. 训练策略模型并进行安全约束校验。
  3. 小规模真实环境验证,收集失败样本。
  4. 将失败样本回注仿真与训练系统,迭代策略。

这套闭环的迭代速度,决定了机器人产品从 demo 到量产的时间。

本章小结

Jensen 的落地观可以概括为:把 AI 当作工业系统来建,而不是把它当作一次性软件功能。AI Factory 和 Robotics Factory 的本质都是“可持续迭代的生产能力”。

给个人和组织的行动建议

个人层:把 AI 当作长期能力放大器

访谈后段最具行动性的观点是这句反复出现的话:“How can I use AI to do my job better?” Jensen 认为这应成为跨职业、跨年龄的共同问题。

可执行的三步法

  1. 每天固定一个高频任务,用 AI 做 first draft(文档、分析、代码、检索)。
  2. 用专家判断做 second pass(纠错、约束、风格、责任边界)。
  3. 记录“提示词与结果”的可复用模板,形成个人 workflow 资产。

学习门槛变化

Jensen 的观察很实用:对于从未接触电脑的人,传统软件学习门槛很高;而 LLM 可以直接通过自然语言指导新手完成入门。智能系统降低了使用智能系统的门槛。

组织层:从“买工具”转向“重构流程”

组织采用 AI 失败的常见原因是只采购工具,不重构流程。可行路径应是:

  • 选 2-3 条高价值流程做闭环试点。
  • 明确人机分工与审批责任。
  • 建立质量、时延、成本三维指标,滚动迭代。

避免“演示幻觉”

许多团队停留在 demo 成功阶段,却没有进入生产级可靠性验证。真正的价值来自持续可重复的流程优化,而不是一次性炫技展示。

本章小结

个人应把 AI 视作“能力复利工具”,组织应把 AI 视作“流程重构工程”。这比单纯追逐模型参数更可持续。

总结与延伸

这场访谈的主线可以概括为“平台先行、范式迁移、系统落地”三段论。Jensen 的叙事并非预测某个短期热点,而是解释为何 NVIDIA 在多个周期里都能处于核心位置:提前建设平台,等待并放大生态创新。

议题 访谈观点 工程启示
并行计算起点 GPU 由游戏市场规模化,CUDA 打开通用编程 平台投资要绑定可持续需求来源
AlexNet 时刻 验证 Software 2.0 与大规模训练路径 当范式切换出现,需重构全栈而非局部优化
Physical AI Omniverse + Cosmos 支撑机器人训练与泛化 world model 与仿真引擎要协同设计
AI safety 风险拆成模型层、系统层、使用层 安全治理需工程化、流程化、可审计
能源约束 算力提升受功耗与系统效率约束 竞争焦点转向系统工程与能效比
架构演化 Transformer 不会是终局 保持平台弹性优于押注单架构
个人发展 持续追问“如何用 AI 做得更好” prompt 与工作流能力将成为通用职业素养

一句话收束

如果说过去十年的关键词是“训练大模型”,那么接下来十年的关键词更可能是“把模型能力变成可规模化、可治理、可负担的现实系统”。

拓展阅读