800 亿个晶体管，FP16 算力 2000TFlops，台积电 4 纳米，NVIDIA GPU H100 杀疯了

今晨，NIVDIA 在 2022 GTC 大会上，宣布推出全新 Hopper 架构，以取代两年前推出的 Ampere 架构。同时，NVIDIA 发布了其首款基于 Hopper 架构的GPU—NVIDIA H100 以及新一代加速计算平台。
H100 是 NVIDIA 的第 9 代数据中⼼ GPU，采⽤全新的 Hopper 架构以及台积电为其定制的 NVIDIA 4N ⼯艺。拥有 800 亿个晶体管， 8 组图形处理器集群、72 组纹理处理器集群、144 组流处理器单元（SM），每组 SM 包含 128 个 FP32 CUDA 核心，总计 18,432 个核心。
H100 继承了 A100 的设计逻辑，提⾼了 AI 和 HPC ⼯作负载下的扩展能⼒，支持 PCIe 5.0、第四代 NVLink，后者带宽提升至 900GB/s，对外总带宽 4.9TB/s。采⽤ InfiniBand 互连技术的 H100 的性能相较于上代 A100 提升达 30 倍，据 NVIDIA 宣传，20 个 H100 GPU 便足以支撑全世界的网络流量。
同时，全新的 NVLink Switch System 互连针对跨多个 GPU 的计算效率作出了优化，在部分情况下相较于使⽤ InfiniBand 的 H100 性能再次提升三倍。

NVIDIA H100 GPU 关键特性总结

全新的流处理器（SM）性能和效率双提升，更高的加速频率，更多的流处理器数量。与上⼀代相⽐，新一代的 Tensor Core 在等效数据类型上的 MMA（矩阵乘法累加）计算速率是 A100 流处理器的 2 倍，在使⽤新的 FP8 数据类型时，浮点性能是 A100 的 4 倍。
动态编程算法的速度⽐ A100 GPU 提⾼多达 7 倍。
FP64 和 FP32 格式下的处理速度比 A100 快 3 倍，处理效率提⾼了 2 倍。
新的线程集群功能允许对局部进⾏编程控制。
HBM3 内存⼦系统与上⼀代相⽐，带宽增加了近 2 倍。H100 SXM5 GPU 是世界上第⼀款配备 HBM3 内存的 GPU，可提供 3 TB/秒内存带宽。
50 MB ⼆级缓存架构足够缓存⼤部分模型和数据集以供重复访问，减少对 HBM3 内存⼦系统的访问。
新的 Transformer 引擎

考虑到 H100 中所有新的性能提升，⾸先它的 SM 数量相⽐ A100 增加了 22%，并且每个 H100 SM 的速度都提⾼了 2 倍。同时在每个 Tensor Core 中，新的 FP8 格式和相关的 Transformer 引擎提供了额外 2 倍的改进。最后，H100 更高的频率也提供了⼤约 1.3 倍的性能提升。综合得出 H100 的计算性能⽐ A100 提⾼了⼤约 6 倍。

H100 可部署于各种数据中心，包括内部私有云、云、混合云和边缘数据中心，产品预计于今年晚些时候全面发售。制造商预计将推出各种配备 H100 加速器的服务器，包括 Atos、BOXX Technologies、思科、戴尔、技嘉、浪潮信息等等。

请截图后在微信扫码参与互动