微软正在推动其使用其 Azure 云计算程序创建超级计算机的努力,以帮助 OpenAI 开发其ChatGPT 聊天机器人。同时,它还发布了一款新的 AI 虚拟机,该虚拟机使用了 NVIDIA 的升级版 GPU。
Microsoft 的新ND H100 v5 VM使用 NVIDIA 的 H100 GPU,这是对之前 A100 GPU 的升级。需要添加 AI 功能的公司可以访问此虚拟机服务,该服务具有以下功能:
- 8 个 NVIDIA H100 Tensor Core GPU 通过下一代 NVSwitch 和 NVLink 4.0 互连
- 非阻塞胖树网络中每个 GPU 400 Gb/s NVIDIA Quantum-2 CX7 InfiniBand,每个 VM 3.2Tb/s
- NVSwitch 和 NVLink 4.0,每个 VM 内的 8 个本地 GPU 之间的对分带宽为 3.6TB/s
- 第 4 代英特尔至强可扩展处理器
- PCIE Gen5 主机到 GPU 互连,每个 GPU 带宽为 64GB/s
- 16 通道 4800MHz DDR5 DIMM
这是微软先前在 Azure OpenAI 服务中宣布的 ChatGPT 的补充,它允许第三方通过 Azure 访问聊天机器人技术。
在另一篇博文中,微软谈到了该公司如何首先开始与 OpenAI 合作,以帮助创建 ChatGPT 的大型语言模型(以及微软自己的 Bing Chat)所需的超级计算机。这意味着以全新的方式将数千个 GPU 连接在一起。该博客提供了微软 Azure 高性能计算和人工智能产品负责人 Nidhi Chappell 的解释:
她解释说,为了训练一个大型语言模型,计算工作量被分配到一个集群中的数千个 GPU 上。在此计算的某些阶段(称为 allreduce),GPU 会交换有关它们已完成工作的信息。InfiniBand 网络加速了这一阶段,该阶段必须在 GPU 开始下一个计算块之前完成。
该硬件与软件相结合,有助于优化 NVIDIA GPU 和使它们协同工作的网络的使用。微软表示,它正在继续添加 GPU 并扩展其网络,同时还试图通过冷却系统、备用发电机和不间断电源系统让它们全天候 24/7 工作。
正文完