英伟达助力全球最大AI超级计算机Colossus成功构建

Keywords: 英伟达, NVIDIA, AI超级计算机, Colossus, xAI, Hopper GPU, Spectrum-X, 大型语言模型, 网络性能


英伟达(NVIDIA)助力全球最大AI超级计算机Colossus的成功构建

加利福尼亚州圣克拉拉,2024年10月28日——英伟达(NVIDIA)今天宣布,位于田纳西州孟菲斯的xAI公司所建造的Colossus超级计算机集群,已成功集成了100,000个NVIDIA Hopper Tensor Core GPU。这一巨型计算平台的构建,得益于英伟达Spectrum-X™以太网网络平台的支持,该平台专为多租户、超大规模的AI工厂设计,能够提供卓越的性能。

Colossus被誉为全球最大的AI超级计算机,主要用于训练xAI的Grok系列大型语言模型,并为X Premium订阅用户提供聊天机器人功能。xAI目前正在进行Colossus的扩容,计划将其GPU总数增加至200,000个。令人瞩目的是,这一先进的超级计算机及其支撑设施,仅用了122天便完成了建设,远低于通常需要数月甚至数年的时间。自首个机架入场到训练开始,仅用时19天。

在训练庞大的Grok模型时,Colossus展现了前所未有的网络性能。在网络架构的三个层级中,该系统实现了零应用延迟降级和数据包丢失,得益于Spectrum-X的拥塞控制,系统保持了95%的数据吞吐量。这一性能水平是标准以太网无法达到的,后者在大规模运行时会造成数千次流冲突,数据吞吐量仅为60%。

英伟达网络高级副总裁Gilad Shainer表示:“AI正变得至关重要,需要更高的性能、安全性、可扩展性和成本效益。NVIDIA Spectrum-X以太网网络平台旨在为像xAI这样的创新者提供更快的AI工作负载处理、分析和执行,从而加速AI解决方案的开发、部署和上市时间。”

xAI的发言人也表示:“NVIDIA的Hopper GPU和Spectrum-X使我们能够在大规模训练AI模型的边界上不断突破,建立一个基于以太网标准的超级加速和优化的AI工厂。”

Spectrum-X平台的核心是Spectrum SN5600以太网交换机,支持高达800Gb/s的端口速度,基于Spectrum-4交换机ASIC。xAI选择将Spectrum-X SN5600交换机与NVIDIA BlueField-3® SuperNIC结合使用,以实现前所未有的性能。Spectrum-X以太网网络为AI带来了先进的特性,提供高效且可扩展的带宽,具备低延迟和短尾延迟,这些特性过去仅限于InfiniBand。

随着AI技术的不断发展,英伟达正致力于推动行业的创新与进步,为全球的AI应用提供强有力的支持。

Previous

Next