NVIDIA推出新一代AI超级计算机DGX SuperPOD

Keywords: NVIDIA, AI超级计算机, DGX SuperPOD, GB200 Grace Blackwell Superchips


NVIDIA宣布推出下一代AI超级计算机——由NVIDIA GB200 Grace Blackwell Superchips驱动的NVIDIA DGX SuperPOD™,用于处理具有恒定运行时间的万亿参数模型,用于超大规模生成式AI训练和推理工作负载。这个新的DGX SuperPOD采用了新的高效液冷机架式架构,采用NVIDIA DGX™ GB200系统,提供了11.5艾克斯夫洛普的FP4精度AI超级计算能力和240TB的快速内存,可以通过额外的机架进行扩展。每个DGX GB200系统都配备了36个NVIDIA GB200 Superchips,其中包括36个NVIDIA Grace CPU和72个NVIDIA Blackwell GPU,通过第五代NVIDIA NVLink®连接成一个超级计算机。GB200 Superchips在大型语言模型推理工作负载方面的性能提高了30倍。新的DGX SuperPOD采用了统一的计算架构,除了第五代NVIDIA NVLink之外,还包括NVIDIA BlueField®-3 DPUs,并将支持NVIDIA Quantum-X800 InfiniBand网络。此架构为平台中的每个GPU提供了高达1800GB/s的带宽。此外,第四代NVIDIA可扩展分层聚合和减少协议(SHARP)技术在下一代DGX SuperPOD架构中提供了14.4Tflops的网络内计算能力,比上一代提高了4倍。新的DGX SuperPOD还具有智能预测管理功能,可以持续监控硬件和软件中的成千上万个数据点,以预测和拦截停机和低效的来源,节省时间、能源和计算成本。该软件可以识别问题并计划维护,灵活调整计算资源,并自动保存和恢复作业以防止停机,即使没有系统管理员在场。如果软件检测到需要更换的部件,集群将激活备用容量以确保工作及时完成。任何需要更换的硬件都可以安排在计划内,以避免非计划停机。NVIDIA DGX SuperPOD with DGX GB200和DGX B200系统预计将于今年晚些时候通过NVIDIA的全球合作伙伴提供。

Previous

NVIDIA宣布TSMC和Synopsys将生产计算光刻平台

2024-03-18 16:19:00

NVIDIA宣布与TSMC和Synopsys合作开发的cuLitho应用了加速计算和生成式人工智能,加速芯片制造并支持最新一代的NVIDIA Blackwell架构GPU。cuLitho能够显著改进半导体制造过程,超越基于CPU的方法。通过加速计算,NVIDIA H100系统可以取代4万台CPU系统,加快生产时间,降低成本、空间和功耗。cuLitho使TSMC能够开启新的创新图案技术的机会,同时Synopsys的Proteus™光学近邻修正软件可以显著加速计算工作负载。NVIDIA还开发了算法,将生成式人工智能应用于进一步增强cuLitho平台的价值。通过3月21日之前注册GTC,参加来自NVIDIA和行业领导者的900多个会议。

Continue reading
Next

NVIDIA推出下一代AI超级计算机

2024-03-18 16:30:00

NVIDIA宣布推出下一代AI超级计算机,由NVIDIA GB200 Grace Blackwell Superchips驱动的NVIDIA DGX SuperPOD,用于处理具有恒定运行时间的万亿参数模型,用于超大规模生成式AI训练和推断工作负载。新的DGX SuperPOD具有高效的液冷机架式架构,采用NVIDIA DGX GB200系统,提供了11.5艾克斯弗洛普的FP4精度AI超级计算能力和240TB的快速内存。DGX SuperPOD具有智能的预测管理功能,可以持续监测硬件和软件的成千上万个数据点,以预测和拦截停机和低效率的原因,节省时间、能源和计算成本。

Continue reading