近日,华为在AI基础设施架构领域取得了重大突破,正式推出了CloudMatrix 384超节点,并已在芜湖数据中心实现规模上线。据独家消息透露,华为云CloudMatrix 384超节点预计在今年上半年将迎来数万规模的全面部署。华为内部人士更是将其誉为“核弹级”产品,预示着算力焦虑的时代或将彻底终结。 在传统AI服务器架构中,通常一个节点仅包含8张算力卡。尽管服务器内部算力卡间的传输速度迅捷,但服务器与服务器之间的通信却成为了性能提升的瓶颈。随着大模型时代的来临,行业巨头们需要连接成千上万乃至十万计的GPU算力卡,这使得互联和通信问题愈发凸显,成为了制约算力集群性能的关键因素。 华为CloudMatrix 384超节点的出现,正是为了解决这一难题。通过采用高速通信技术,华为成功将384张昇腾算力卡融合为一个超节点,实现了超节点内算力卡的高速互联和通信,从而大幅提升了算力集群的整体性能。这一创新不仅打破了传统服务器架构的局限,更为AI大模型的训练与推理提供了前所未有的算力支持。 值得一提的是,在2024年3月,英伟达曾率先发布了NVL72超节点,将72张训练卡组成一个超节点,为万亿参数的大型语言模型推理带来了30倍的实时速度提升。然而,华为CloudMatrix 384超节点的问世,无疑在规模上实现了更大的突破。以384张昇腾算力卡组成的超节点,在目前已商用的超节点中单体规模最大,展现了华为在AI基础设施领域的深厚积累与强大实力。 在性能与可靠性方面,华为CloudMatrix 384同样表现出色。基于CloudMatrix的昇腾AI云服务,大模型训练作业能够稳定运行40天之久,互联带宽断点恢复时间更是缩短至10秒级别。在互联带宽上,超节点网络交换机采用了6812个400G光模块,实现了高达2.8Tbps的卡间互联带宽,为算力的高效传输提供了有力保障。 此外,从硅基流动方面了解到,硅基流动已联合华为云基于CloudMatrix 384超节点昇腾云服务正式上线了DeepSeek-R1模型。在保证单用户20TPS水平的前提下,单卡Decode吞吐突破1920Tokens/s,性能比肩H100部署。同时,经过主流测试集验证及大规模线上盲测,DeepSeek-R1在昇腾算力部署下的模型精度与DeepSeek官方保持一致,进一步证明了华为CloudMatrix 384超节点的卓越性能。 尽管国产芯片在单卡性能方面与英伟达仍存在一定差距,但通过多卡集群的方式,这一差距正在逐步缩小。华为公布的数据显示,CloudMatrix 384实现了算力规模达300PFlops,相比英伟达NVL72的180PFlops提升了67%,展现了华为在算力集群技术上的领先地位。 然而,不可忽视的是,在单位算力功耗方面,国产芯片仍面临挑战。更高的功耗对服务器散热提出了更高要求,机房规模也需相应扩大,从而导致整体成本上升。此外,算力卡数量的增加也意味着数据需要在多卡之间频繁传输,这可能会带来更大的时间开销。尽管如此,一位芯片业内人士仍表示:“即使在功耗更大的情况下,华为能做NVL72的水平也相当不容易了,这充分体现了华为的研发能力。” 国泰海通证券也对华为CloudMatrix 384超节点给予了高度评价。他们认为,华为云推出的这一超节点在单用户20TPS前提下,单卡Decode吞吐突破1920Tokens/s,比肩全球主流GPU部署性能,超节点机柜在集群推理方面具备显著优势。随着国内外硬件供应瓶颈的逐步缓解,国内AI进展有望加速。 |
说点什么...