华为近期发布的CloudMatrix 384超节点集群技术,通过横向扩展384颗昇腾AI芯片,结合高速互联协议和网络交换机,实现了300P算力。该方案以多芯片集群替代单卡性能提升,通过优化节点互联和算力调度,在显存容量和内存带宽上对标英伟达的NVL72集群,但功耗和集成度仍存在差距。徐凌杰指出,超节点设计反映了AI算力优化趋势,即从单芯片性能竞争转向集群化算力布局。
英伟达的NVL72采用纵向扩展模式,通过NVLink架构实现72卡全互联,而华为方案依赖分布式训练系统和多机柜光纤连接。尽管华为超节点集群的总算力更强,但单卡性能仅为英伟达H200的80%,凸显国产芯片在先进制程芯片领域的瓶颈。双方差异也体现在成本结构上:华为方案依赖国内较低电价优势,而英伟达更注重能效比。
在AI算力市场影响方面,超节点技术可能加速国产算力生态的成熟,但对英伟达短期冲击有限。华为集群的示范效应可能倒逼其他国产厂商提升大显存AI芯片和互联技术能力。同时,训练集群与推理成本的差异化需求推动行业探索存储计算平衡方案,例如通过专家并行技术提升集群利用率。未来,算力瓶颈的突破或将依赖新型冷却技术或存算一体架构,而高速互联协议和芯片制程仍是关键变量。