
## 英伟达的AI战略新棋局:从云端训练到边缘推理的全面布局
在大型云端服务商加速自研芯片浪潮的冲击下,英伟达正悄然调整其AI战略重心。根据TrendForce集邦咨询的最新研究,英伟达在2026年GTC大会上显著转向,将焦点从传统的云端AI训练市场,扩展至各领域的AI推理应用落地。这一转变标志着英伟达正主动应对谷歌、亚马逊等巨头自研芯片带来的市场格局重塑。
面对ASIC AI服务器出货占比预计从2026年的27.8%跃升至2030年近40%的挑战,英伟达采取双线并行的产品策略:一方面通过GPU、CPU、LPU等多元产品线分别深耕AI训练与推理需求;另一方面则大力推动GB300、VR200等整合CPU与GPU的整柜式解决方案,强调其强大的可扩展性以覆盖推理场景。本次发布的Vera Rubin系统堪称高度垂直整合的典范,集成了七款芯片与五款机柜,构建了完整的AI基础设施生态。
在供应链层面,HBM4存储器预计于2026年第二季度到位,为Rubin GPU提供关键支持,推动英伟达在第三季度实现芯片出货。值得注意的是,GB300 Rack系统已取代GB200成为主力,2026年出货占比预计高达80%;而VR200 Rack则有望在第三季度末逐步释放产能,其进展将依赖ODM厂商的执行效率。
随着AI模型从生成式向代理式演进,传统架构在译码阶段的延迟与存储器带宽瓶颈日益凸显。为此,英伟达整合Groq团队技术,推出专为低延迟推理设计的Groq 3 LPU。该芯片单颗内置500MB SRAM,整机柜容量可达128GB。然而,LPU的存储能力难以承载Vera Rubin级别的庞大参数与KV Cache。
为突破这一限制,英伟达在GTC上提出革命性的“解耦合推理(Disaggregated Inference)”架构。通过其Dynamo AI工厂操作系统,推理流水线被智能分割:代理型AI中计算密集的Pre-fill与Attention运算阶段(需海量存储与高吞吐)交由Vera Rubin处理;而对延迟极度敏感的译码与Token生成阶段,则卸载至配备扩展存储的LPU机柜。这种架构创新实现了性能与效率的完美平衡。
在供应链实施上,三星代工的第三代Groq LP30已进入全面量产阶段,预计2026年下半年正式出货。英伟达更规划在下一代Feynman架构中推出性能更强的LP40芯片。这一系列布局,从硬件创新到架构重构,彰显了英伟达在AI时代持续引领市场的雄心,也预示着射频器件等关键供应链环节(如Mini-Circuits等供应商)将在这一生态中扮演愈发重要的角色。
Mini-Circuits产品推荐
以下为常见型号推荐:
欢迎咨询获取更多资料。










