NVIDIA推出下一代AI超级计算机

Keywords: NVIDIA, AI超级计算机, DGX SuperPOD, GB200 Grace Blackwell Superchips


NVIDIA宣布推出下一代AI超级计算机——由NVIDIA GB200 Grace Blackwell Superchips驱动的NVIDIA DGX SuperPOD™,用于处理具有恒定运行时间的万亿参数模型,用于超大规模生成式AI训练和推断工作负载。这款新的DGX SuperPOD具有高效的液冷机架式架构,采用NVIDIA DGX™ GB200系统,提供了11.5艾克斯弗洛普的FP4精度AI超级计算能力和240TB的快速内存,可以通过额外的机架进行扩展。每个DGX GB200系统都配备了36个NVIDIA GB200 Superchips,其中包括36个NVIDIA Grace CPU和72个NVIDIA Blackwell GPU,通过第五代NVIDIA NVLink®连接成一个超级计算机。GB200 Superchips在大型语言模型推断工作负载方面的性能提高了30倍。这款由Grace Blackwell驱动的DGX SuperPOD具有智能的预测管理功能,可以持续监测硬件和软件的成千上万个数据点,以预测和拦截停机和低效率的原因,节省时间、能源和计算成本。NVIDIA DGX B200系统是用于AI模型训练、微调和推断的统一AI超级计算平台,包括八个NVIDIA Blackwell GPU和两个第五代英特尔®Xeon®处理器。这些DGX B200系统包括新的Blackwell架构,提供了高达144拍瓦的AI性能,1.4TB的GPU内存和64TB/s的内存带宽。DGX B200系统包括先进的网络,每个连接提供高达400吉比特每秒的带宽,使用NVIDIA Quantum-2 InfiniBand和NVIDIA Spectrum™-X以太网网络平台,可以提供快速的AI性能。NVIDIA DGX SuperPOD与DGX GB200和DGX B200系统预计将于今年晚些时候从NVIDIA的全球合作伙伴处提供。

Previous

NVIDIA推出新一代AI超级计算机DGX SuperPOD

2024-03-18 16:30:00

NVIDIA宣布推出下一代AI超级计算机——由NVIDIA GB200 Grace Blackwell Superchips驱动的NVIDIA DGX SuperPOD™,用于处理具有恒定运行时间的万亿参数模型,用于超大规模生成式AI训练和推理工作负载。新的DGX SuperPOD采用了新的高效液冷机架式架构,采用NVIDIA DGX™ GB200系统,提供了11.5艾克斯夫洛普的FP4精度AI超级计算能力和240TB的快速内存,可以通过额外的机架进行扩展。该软件可以识别问题并计划维护,灵活调整计算资源,并自动保存和恢复作业以防止停机,即使没有系统管理员在场。

Continue reading
Next

NVIDIA 公司发布新一代 Blackwell 平台

2024-03-18 16:27:00

NVIDIA 公司发布了新一代 Blackwell 平台,该平台将使得各个组织可以以比之前快 25 倍的速度和能耗成本,构建和运行具有万亿参数规模的大语言模型的实时生成式人工智能。Blackwell GPU 架构具有六项革命性技术,可以加速数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式人工智能的突破。该平台以大数学家 David Harold Blackwell 命名,预计将有许多组织采用 Blackwell,其中包括亚马逊网络服务、戴尔科技、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉和 xAI 等公司。

Continue reading