NVIDIA要重塑AI：单用户速度可达2万Token每秒、能耗降1000倍

频道：人工智能日期：2026-03-23 浏览：171

快科技3月23日消息，如果说前几年的AI重点是训练，那么现在的重点是推理，NVIDIA上周的GTC大会上已经发布了全新的LPU芯片，就是要重塑AI推理。在GTC大会期间，NVIDIA首席科学家Bill Dally跟谷歌首席科学家Jeff Dean两位大神有了一番精彩的深度访谈，其中Dally就谈到了NVIDIA在做的一些研究进展。

AI推理对延迟的要求很高，Dally指出目前的瓶颈已经不是算力本身，瓶颈在通信开销上，NVIDIA正在研究片上通信的静态调度，将会彻底取消路由开销、排队和仲裁，通信速度接近光速本身。目前的技术方案中，芯片从一角到另一角的延迟有几百纳秒之多，NVIDIA的技术方案可以做到30纳秒。

片外通信中，之前的方案是一步步提高带宽速率，现在做到了400Gbps甚至800Gbps，但这样的带宽也带来了复杂的信号处理及纠错机制，但速度如果从400Gbps降低到200Gbps，复杂问题反而会消失，只做序列化延迟的话，几个时钟周期就能完成。Dally表示他有信心未来AI推理可以做到单用户每秒10000到20000Token的推理速度——作为对比，大家要知道目前很多人用在大模型AI推理速度，普遍在100Token每秒以内，甚至每秒60Token以上的速度就算高速了。

NVIDIA要重塑AI：单用户速度可达2万Token每秒、能耗降1000倍

Dally表示做到这样的速度前提是用对了架构，他还以NVFP4精度做了例子对比，用这种精度做一次乘加运算需要消耗10飞焦的能量，但HBM4从外部读取数据大约消耗15皮焦能量，差距是1000倍以上。改用SRAM缓存的话，读取数据的能耗也会变成10飞焦了，跟计算过程的消耗一个级别。

不过SRAM也不是没代价的，芯片成本比HBM还会高的，GTC大会上NVIDIA发布的LPU芯片LPU30也只能集成500MB SRAM缓存，跟GPU集成的288GB HBM4不是一个量级的。

NVIDIA要重塑AI：单用户速度可达2万Token每秒、能耗降1000倍

【本文结束】出处：快科技

关键词：NVIDIA要重塑AI

上一篇：苹果CEO库克：AI是对人类能力放大而不是取代人

下一篇：中国大模型调用量连续3周超越美国国产模型霸榜

NVIDIA要重塑AI：单用户速度可达2万Token每秒、能耗降1000倍

0 留言

评论

NVIDIA要重塑AI：单用户速度可达2万Token每秒、能耗降1000倍

相关文章

0 留言

评论