NVIDIA发布新一代Blackwell平台,推动AI模型达到万亿参数规模

Keywords: NVIDIA, Blackwell平台, AI模型, 万亿参数规模, GPU架构


NVIDIA发布新一代Blackwell平台,推动AI模型达到万亿参数规模

2024年3月18日,加利福尼亚圣何塞,环球新闻社— NVIDIA今日宣布,NVIDIA Blackwell平台已经问世,使得各个组织都能够在比其前身节省高达25倍成本和能源消耗的情况下,构建和运行万亿参数大型语言模型的实时生成AI。Blackwell GPU架构具有六项加速计算的革命性技术,将有助于解锁数据处理、工程仿真、电子设计自动化、计算机辅助药物设计、量子计算和生成AI等领域的突破性进展,这些都是NVIDIA新兴的行业机遇。

NVIDIA创始人兼首席执行官黄仁勋表示:“三十年来,我们一直致力于加速计算,旨在实现深度学习和人工智能等颠覆性突破。生成AI是我们这个时代的定义性技术。Blackwell是推动这场新工业革命的引擎。与全球最具活力的公司合作,我们将实现AI在各行各业的承诺。”

预计将采用Blackwell的众多组织包括亚马逊网络服务、戴尔科技、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉和xAI。谷歌母公司Alphabet和谷歌首席执行官桑达尔·皮查伊表示:“将搜索和Gmail等服务扩展到数十亿用户,让我们对管理计算基础设施有了很多经验。随着我们进入AI平台转变时代,我们将继续深入投资于我们自己产品和服务的基础设施,以及我们的云客户。我们很幸运能与NVIDIA建立长期合作关系,期待将Blackwell GPU的突破能力带给我们的云客户和谷歌各个团队,包括Google DeepMind,加速未来的发现。”

亚马逊总裁兼首席执行官安迪·贾西表示:“我们与NVIDIA的深度合作已有超过13年的历史,当时我们在AWS推出了全球首个GPU云实例。如今,我们在云中提供了最广泛的GPU解决方案,支持世界上技术最先进的加速工作负载。这就是为什么新的NVIDIA Blackwell GPU在AWS上运行得如此顺畅,也是NVIDIA选择AWS与之共同开发Ceiba项目的原因,将NVIDIA的下一代Grace Blackwell超级芯片与AWS Nitro系统的先进虚拟化和超快速弹性网络适配器相结合,用于NVIDIA自己的AI研发。通过AWS和NVIDIA工程师的共同努力,我们将继续共同创新,使AWS成为任何人在云中运行NVIDIA GPU的最佳选择。”

戴尔科技创始人兼首席执行官迈克尔·戴尔表示:“生成AI对于创造更智能、更可靠和更高效的系统至关重要。戴尔科技和NVIDIA正在共同塑造科技的未来。随着Blackwell的推出,我们将继续向客户提供下一代加速产品和服务,为他们提供驱动行业创新所需的工具。”

此外,谷歌DeepMind的联合创始人兼首席执行官迪米斯·哈萨比斯表示:“AI的变革潜力是不可思议的,它将帮助我们解决一些世界上最重要的科学问题。Blackwell的突破技术能力将提供所需的计算支持,帮助世界上最聪明的头脑开启新的科学发现。”

Meta的创始人兼首席执行官马克·扎克伯格表示:“AI已经驱动着我们的大型语言模型、内容推荐、广告和安全系统等一切,未来它只会变得更加重要。我们期待使用NVIDIA的Blackwell来帮助训练我们的开源Llama模型,并打造Meta的下一代AI和消费产品。”

微软执行董事长兼首席执行官萨蒂亚·纳德拉表示:“我们致力于为客户提供最先进的基础设施,以支持他们的AI工作负载。通过在全球范围内部署NVIDIA GB200 Grace Blackwell处理器,我们正在继续优化NVIDIA GPU在我们的云中的应用,让AI的承诺在全球范围内变为现实。”

OpenAI首席执行官山姆·阿尔特曼表示:“Blackwell提供了巨大的性能飞跃,将加速我们交付领先模型的能力。我们很高兴继续与NVIDIA合作,以增强AI计算。”

甲骨文董事长兼首席技术官拉里·埃里森表示:“甲骨文与NVIDIA的密切合作将实现AI、机器学习和数据分析的定性和定量突破。为了让客户发现更多可操作的见解,需要像Blackwell这样更强大的引擎,专为加速计算和生成AI而设计,这对于医疗保健和金融服务等隐私敏感行业至关重要。”

特斯拉和xAI首席执行官埃隆·马斯克表示:“目前没有比NVIDIA硬件更适合AI的。”

新架构以数学家大卫·哈罗德·布莱克韦尔的名字命名,他专注于博弈论和统计学,是第一位被选入美国国家科学院的黑人学者。这一新架构是两年前推出的NVIDIA Hopper™架构的继任者。

Blackwell创新推动加速计算和生成AI Blackwell的六项革命性技术,共同支持AI训练和实时LLM推理,模型规模可扩展至10万亿参数,包括:

  • 世界上最强大的芯片—Blackwell架构的GPU装有2080亿晶体管,采用定制的4NP TSMC工艺制造,通过每秒10TB的芯片对芯片连接,形成单一统一GPU。
  • 第二代Transformer引擎—通过新的微张量扩展支持和NVIDIA先进的动态范围管理算法,集成到NVIDIA TensorRT™-LLM和NeMo Megatron框架中,Blackwell将支持两倍的计算和模型规模,具备新的4位浮点AI推理能力。
  • 第五代NVLink—为加速多万亿参数和专家混合AI模型的性能,最新版本的NVIDIA NVLink®提供了每个GPU的1.8TB/s双向吞吐量,确保高达576个GPU之间的无缝高速通信,用于最复杂的LLM。
  • RAS引擎—Blackwell的GPU包括专用的可靠性、可用性和可维护性引擎。此外,Blackwell架构在芯片级别增加了能力,利用基于AI的预防性维护来运行诊断和预测可靠性问题。这最大程度地提高了系统的正常运行时间,提高了大规模AI部署的弹性,使其能够连续运行数周甚至数月,并减少运行成本。
  • 安全AI—先进的保密计算能力在不影响性能的情况下保护AI模型和客户数据,支持新的本机接口加密协议,对于医疗保健和金融服务等隐私敏感行业至关重要。
  • 解压缩引擎—专用的解压缩引擎支持最新的格式,加速数据库查询,提供数据分析和数据科学领域的最高性能。未来几年,公司每年在数据处理上的支出将越来越多地由GPU加速。

大规模超级芯片 NVIDIA GB200 Grace Blackwell超级芯片通过900GB/s超低功耗NVLink芯片对芯片互连将两个NVIDIA B200 Tensor Core GPU连接到NVIDIA Grace CPU。为了实现最高的AI性能,GB200驱动的系统可以通过NVIDIA Quantum-X800 InfiniBand和Spectrum™-X800以高达800Gb/s的速度提供先进的网络。GB200是NVIDIA GB200 NVL72的关键组件,这是一个多节点、液冷、机架规模系统,用于最大的计算密集型工作负载。它结合了36个Grace Blackwell超级芯片,其中包括72个Blackwell GPU和36个Grace CPU,通过第五代NVLink相互连接。此外,GB200 NVL72还包括NVIDIA BlueField®-3数据处理单元,以实现云网络加速、可组合存储、零信任安全和超大规模AI云中的GPU计算弹性。与相同数量的NVIDIA H100 Tensor Core GPU相比,GB200 NVL72在LLM推理工作负载中提供高达30倍的性能提升,并将成本和能源消耗降低多达25倍。该平台作为单一GPU,具有1.4艾克斯的AI性能和30TB的快速内存,是最新DGX SuperPOD的构建模块。

NVIDIA还提供了HGX B200,一个服务器板,通过NVLink连接八个B200 GPU,以支持基于x86的生成AI平台。HGX B200通过NVIDIA Quantum-2 InfiniBand和Spectrum-X以高达400Gb/s的速度支持网络。全球Blackwell合作伙伴网络 基于Blackwell的产品将于今年晚些时候从合作伙伴处获得。亚马逊网络服务、谷歌云、微软Azure和甲骨文云基础设施将是首批提供Blackwell动力实例的云服务提供商,NVIDIA云合作伙伴计划公司Applied Digital、CoreWeave、Crusoe、IBM Cloud和Lambda也将提供Blackwell动力云服务。主权AI云也将提供基于Blackwell的云服务和基础设施,包括Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国、英国和澳大利亚政府云、Scaleway、Singtel、Northern Data Group的Taiga Cloud、Yotta Data Services的Shakti Cloud和YTL Power International。AWS、谷歌云和甲骨文云基础设施计划于今年晚些时候提供基于新的NVIDIA Grace Blackwell的实例。思科、戴尔、惠普企业、联想和超微预计将提供基于Blackwell产品的各种服务器,Aivres、ASRock Rack、华硕、Eviden、富士康、技嘉、英业达、宏基、QCT、Wistron、Wiwynn和ZT Systems也将提供。此外,全球工程仿真领导者Ansys、Cadence和Synopsys等软件制造商网络将使用基于Blackwell的处理器加速其用于设计和仿真电气、机械和制造系统和零部件的软件。他们的客户可以使用生成AI和加速计算更快地、成本更低地、能源效率更高地将产品推向市场。NVIDIA软件支持 Blackwell产品系列由NVIDIA AI Enterprise支持,这是用于生产级AI的端到端操作系统。NVIDIA AI Enterprise包括NVIDIA NIM™推理微服务,也是今天宣布的,以及企业可以在NVIDIA加速的云、数据中心和工作站上部署的AI框架、库和工具。要了解有关NVIDIA Blackwell平台的更多信息,请观看GTC主题演讲,并注册参加GTC的NVIDIA和行业领导者的会议,GTC将持续到3月21日。 关于NVIDIA 自1993年成立以来,NVIDIA(纳斯达克股票代码:NVDA)一直是加速计算的先驱。公司于1999年发明的GPU引发了PC游戏市场的增长,重新定义了计算机图形,引发了现代人工智能的时代,并正在重塑产业数字化。NVIDIA现在是一家全面的计算基础设施公司,拥有重新塑造行业的数据中心规模产品。更多信息请访问https://nvidianews.nvidia.com/。有关更多信息,请联系: Kristin Uchiyama NVIDIA Corporation +1-408-313-0448 kuchiyama@nvidia.com 本新闻稿中的某些陈述,包括但不限于关于NVIDIA产品和技术的益处、影响、性能、特点和可用性,包括NVIDIA Blackwell平台、Blackwell GPU架构、Resilience Technologies、Custom Tensor Core技术、NVIDIA TensorRT-LLM、NeMo Megatron框架、NVLink、NVIDIA GB200 Grace Blackwell Superchip、B200 Tensor Core GPU、NVIDIA Grace CPU、NVIDIA H100 Tensor Core GPU、NVIDIA Quantum-X800 InfiniBand和Spectrum-X800以及NVIDIA GB200 NVL72、NVIDIA BlueField-3数据处理单元、DGX SuperPOD、HGX B200、Quantum-2 InfiniBand和Spectrum-X以及NVIDIA AI Enterprise和NVIDIA NIM推理微服务的功能、定价、可用性和规格的重要因素,以及我们的目标是实现深度学习和AI等颠覆性突破;Blackwell GPU是推动新工业革命的引擎;我们与第三方的合作和合作伙伴关系的益处和影响;将提供或使用我们的产品、服务和基础设施的第三方,以及他们将提供基于我们产品的服务器等方面的能力;全球工程仿真领导者的客户将使用生成AI和加速计算更快地、成本更低地、能源效率更高地将产品推向市场等内容,都是前瞻性陈述,受到可能导致结果与期望有重大不同的风险和不确定性的影响。可能导致实际结果与期望有重大不同的重要因素包

Previous

NVIDIA推出Earth-2气候数字孪生云平台

2024-03-18 17:11:00

NVIDIA宣布推出Earth-2气候数字孪生云平台,利用新的云API在NVIDIA DGX Cloud上创建AI模拟,加快交互式、高分辨率的气候和天气模拟的交付速度。台湾中央气象局计划利用这些扩散模型来预测更准确的台风登陆位置,以减少伤亡。其他公司也计划利用Earth-2的API来构建气候技术应用。

Continue reading
Next

NVIDIA推出Earth-2气候数字孪生云平台

2024-03-18 17:11:00

NVIDIA推出了Earth-2气候数字孪生云平台,旨在加速应对气候变化带来的极端天气造成的经济损失。该平台使用了NVIDIA的CUDA-X™微服务,并提供了新的云API,可以帮助用户创建人工智能驱动的模拟,加快交互式、高分辨率的模拟交付速度,范围涵盖全球大气和局部云层到台风和湍流。此外,Earth-2的API还提供了人工智能模型,并采用了一种名为CorrDiff的新型NVIDIA生成式人工智能模型,能够生成高分辨率图像,提高气象预测的准确性。The Weather Company、Spire、Meteomatics等公司已经采用了该平台,为气象预测和气候技术应用提供了全新的解决方案。

Continue reading