微软展示了如何将 Azure 与 NVIDIA 芯片结合起来制造 AI 超级计算机

266次阅读
没有评论

微软展示了如何将 Azure 与 NVIDIA 芯片结合起来制造 AI 超级计算机

微软正在推动其使用其 Azure 云计算程序创建超级计算机的努力,以帮助 OpenAI 开发其ChatGPT 聊天机器人。同时,它还发布了一款新的 AI 虚拟机,该虚拟机使用了 NVIDIA 的升级版 GPU。

Microsoft 的新ND H100 v5 VM使用 NVIDIA 的 H100 GPU,这是对之前 A100 GPU 的升级。需要添加 AI 功能的公司可以访问此虚拟机服务,该服务具有以下功能:

  • 8 个 NVIDIA H100 Tensor Core GPU 通过下一代 NVSwitch 和 NVLink 4.0 互连
  • 非阻塞胖树网络中每个 GPU 400 Gb/s NVIDIA Quantum-2 CX7 InfiniBand,每个 VM 3.2Tb/s
  • NVSwitch 和 NVLink 4.0,每个 VM 内的 8 个本地 GPU 之间的对分带宽为 3.6TB/s
  • 第 4 代英特尔至强可扩展处理器
  • PCIE Gen5 主机到 GPU 互连,每个 GPU 带宽为 64GB/s
  • 16 通道 4800MHz DDR5 DIMM

这是微软先前在 Azure OpenAI 服务中宣布的 ChatGPT 的补充,它允许第三方通过 Azure 访问聊天机器人技术。

另一篇博文中,微软谈到了该公司如何首先开始与 OpenAI 合作,以帮助创建 ChatGPT 的大型语言模型(以及微软自己的 Bing Chat)所需的超级计算机。这意味着以全新的方式将数千个 GPU 连接在一起。该博客提供了微软 Azure 高性能计算和人工智能产品负责人 Nidhi Chappell 的解释:

她解释说,为了训练一个大型语言模型,计算工作量被分配到一个集群中的数千个 GPU 上。在此计算的某些阶段(称为 allreduce),GPU 会交换有关它们已完成工作的信息。InfiniBand 网络加速了这一阶段,该阶段必须在 GPU 开始下一个计算块之前完成。

该硬件与软件相结合,有助于优化 NVIDIA GPU 和使它们协同工作的网络的使用。微软表示,它正在继续添加 GPU 并扩展其网络,同时还试图通过冷却系统、备用发电机和不间断电源系统让它们全天候 24/7 工作。

正文完
 
Windows12系统管理员
版权声明:本站原创文章,由 Windows12系统管理员 2023-03-14发表,共计829字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)