凯翔Kyson

凯翔Kyson

关注

800 亿个晶体管,FP16 算力 2000TFlops,台积电 4 纳米,NVIDIA GPU H100 杀疯了

环形隧道

2022-03-23

今晨,NIVDIA 在 2022 GTC 大会上,宣布推出全新 Hopper 架构,以取代两年前推出的 Ampere 架构。同时,NVIDIA 发布了其首款基于 Hopper 架构的GPU—NVIDIA H100 以及新一代加速计算平台。
H100 是 NVIDIA 的第 9 代数据中⼼ GPU,采⽤全新的 Hopper 架构以及台积电为其定制的 NVIDIA 4N ⼯艺。拥有 800 亿个晶体管, 8 组图形处理器集群、72 组纹理处理器集群、144 组流处理器单元(SM),每组 SM 包含 128 个 FP32 CUDA 核心,总计 18,432 个核心。
H100 继承了 A100 的设计逻辑,提⾼了 AI 和 HPC ⼯作负载下的扩展能⼒,支持 PCIe 5.0、第四代 NVLink,后者带宽提升至 900GB/s,对外总带宽 4.9TB/s。采⽤ InfiniBand 互连技术的 H100 的性能相较于上代 A100 提升达 30 倍,据 NVIDIA 宣传,20 个 H100 GPU 便足以支撑全世界的网络流量。
同时, 全新的 NVLink Switch System 互连针对跨多个 GPU 的计算效率作出了优化,在部分情况下相较于使⽤ InfiniBand 的 H100 性能再次提升三倍。

NVIDIA H100 GPU 关键特性总结

  • 全新的流处理器(SM)性能和效率双提升,更高的加速频率,更多的流处理器数量。与上⼀代相⽐,新一代的 Tensor Core 在等效数据类型上的 MMA(矩阵乘法累加)计算速率是 A100 流处理器的 2 倍,在使⽤新的 FP8 数据类型时,浮点性能是 A100 的 4 倍。
  • 动态编程算法的速度⽐ A100 GPU 提⾼多达 7 倍。
  • FP64 和 FP32 格式下的处理速度比 A100 快 3 倍,处理效率提⾼了 2 倍。
  • 新的线程集群功能允许对局部进⾏编程控制。
  • HBM3 内存⼦系统与上⼀代相⽐,带宽增加了近 2 倍。H100 SXM5 GPU 是世界上第⼀款配备 HBM3 内存的 GPU,可提供 3 TB/秒内存带宽。
  • 50 MB ⼆级缓存架构足够缓存⼤部分模型和数据集以供重复访问,减少对 HBM3 内存⼦系统的访问。
  • 新的 Transformer 引擎

考虑到 H100 中所有新的性能提升,⾸先它的 SM 数量相⽐ A100 增加了 22%,并且每个 H100 SM 的速度都提⾼了 2 倍。同时在每个 Tensor Core 中,新的 FP8 格式和相关的 Transformer 引擎提供了额外 2 倍的改进。最后,H100 更高的频率也提供了⼤约 1.3 倍的性能提升。 综合得出 H100 的计算性能⽐ A100 提⾼了⼤约 6 倍。

H100 可部署于各种数据中心,包括内部私有云、云、混合云和边缘数据中心,产品预计于今年晚些时候全面发售。制造商预计将推出各种配备 H100 加速器的服务器,包括 Atos、BOXX Technologies、思科、戴尔、技嘉、浪潮信息等等。

本文著作权归作者所有,并授权 42 号车库独家使用,未经 42 号车库许可,不得转载使用。

评论 · 0

0/3
大胆发表你的想法~
1