英伟达助力全球最大AI超级计算机Colossus成功构建

Keywords: 英伟达, NVIDIA, AI超级计算机, Colossus, xAI, Hopper GPU, Spectrum-X, 大型语言模型, 网络性能


英伟达(NVIDIA)助力全球最大AI超级计算机Colossus的成功构建

加利福尼亚州圣克拉拉,2024年10月28日——英伟达(NVIDIA)今天宣布,位于田纳西州孟菲斯的xAI公司所建造的Colossus超级计算机集群,已成功集成了100,000个NVIDIA Hopper Tensor Core GPU。这一巨型计算平台的构建,得益于英伟达Spectrum-X™以太网网络平台的支持,该平台专为多租户、超大规模的AI工厂设计,能够提供卓越的性能。

Colossus被誉为全球最大的AI超级计算机,主要用于训练xAI的Grok系列大型语言模型,并为X Premium订阅用户提供聊天机器人功能。xAI目前正在进行Colossus的扩容,计划将其GPU总数增加至200,000个。令人瞩目的是,这一先进的超级计算机及其支撑设施,仅用了122天便完成了建设,远低于通常需要数月甚至数年的时间。自首个机架入场到训练开始,仅用时19天。

在训练庞大的Grok模型时,Colossus展现了前所未有的网络性能。在网络架构的三个层级中,该系统实现了零应用延迟降级和数据包丢失,得益于Spectrum-X的拥塞控制,系统保持了95%的数据吞吐量。这一性能水平是标准以太网无法达到的,后者在大规模运行时会造成数千次流冲突,数据吞吐量仅为60%。

英伟达网络高级副总裁Gilad Shainer表示:“AI正变得至关重要,需要更高的性能、安全性、可扩展性和成本效益。NVIDIA Spectrum-X以太网网络平台旨在为像xAI这样的创新者提供更快的AI工作负载处理、分析和执行,从而加速AI解决方案的开发、部署和上市时间。”

xAI的发言人也表示:“NVIDIA的Hopper GPU和Spectrum-X使我们能够在大规模训练AI模型的边界上不断突破,建立一个基于以太网标准的超级加速和优化的AI工厂。”

Spectrum-X平台的核心是Spectrum SN5600以太网交换机,支持高达800Gb/s的端口速度,基于Spectrum-4交换机ASIC。xAI选择将Spectrum-X SN5600交换机与NVIDIA BlueField-3® SuperNIC结合使用,以实现前所未有的性能。Spectrum-X以太网网络为AI带来了先进的特性,提供高效且可扩展的带宽,具备低延迟和短尾延迟,这些特性过去仅限于InfiniBand。

随着AI技术的不断发展,英伟达正致力于推动行业的创新与进步,为全球的AI应用提供强有力的支持。

Previous

Coherent推出ARM FL20D光纤激光器,提升焊接效率与质量

2024-10-24 17:00:00

Coherent公司于2024年10月24日推出了其最新的ARM FL20D光纤激光器,具备高达20 kW的功率和双环光束配置,显著提升焊接速度和质量。该激光器能够在多种应用中消除填充焊丝的需求,带来成本节约和工艺效率提升,尤其适用于电动车驱动系统和车身焊接等高要求领域。ARM FL20D预计将在2025年2月正式上市,代表了焊接行业的重大技术进步。

Continue reading
Next

Salesforce与Palantir推动企业软件股上涨,NOW公司或受益

2024-11-11 16:48:11

Salesforce和Palantir成为推动企业软件股票上涨的主要力量,Salesforce股价上涨6%,并计划招聘1,000名员工以支持新生成式人工智能产品的销售。NOW公司在数字化转型和企业服务管理方面的创新可能使其受益于这一积极市场情绪,投资者应关注其后续动态以把握投资机会。

Continue reading