Hopper (mikroarchitektura)

Nvidia Hopper
Proces wytwarzania TSMC N4
Historia
Poprzednik Amper (konsumencki, profesjonalny)
Stan wsparcia
Obsługiwane
Grace Hopper, eponim architektury

Hopper to kryptonim mikroarchitektury GPU Datacenter firmy Nvidia , która będzie równoległą wersją Ady Lovelace (dla segmentu konsumenckiego). [ potrzebne źródło ] Jej nazwa pochodzi od amerykańskiego informatyka i kontradmirała Marynarki Wojennej Stanów Zjednoczonych Grace Hopper . Kiedyś krążyły plotki, że Hopper będzie pierwszą generacją procesorów graficznych Nvidii, które będą wykorzystywać moduły wieloukładowe (MCM), chociaż ogłoszenie H100 pokazywało ogromną monolityczną kostkę. Nvidia oficjalnie ogłosiła mikroarchitekturę GPU Hopper i GPU H100 na GTC 2022 22 marca 2022 r.

Detale

Udoskonalenia architektoniczne architektury Hopper obejmują:

  • Możliwości obliczeniowe CUDA 9.0
  • Proces TSMC N4 FinFET
  • Rdzenie Tensor czwartej generacji z obsługą FP8, FP16, bfloat16, TensorFloat-32 (TF32) i FP64 oraz akceleracją sparsity.
  • Nowy silnik Nvidia Transformer z FP8 i FP16
  • Nowe instrukcje DPX
  • Pamięć o dużej przepustowości 3 (HBM3) w H100 80 GB
  • Podwójne rdzenie FP32 na multiprocesor strumieniowy (SM)
  • NVLink 4.0
  • PCI Express 5.0 z obsługą SR-IOV (SR-IOV jest zarezerwowany tylko dla H100)
  • Wirtualizacja z wieloma instancjami GPU (MIG) drugiej generacji i funkcja partycjonowania GPU w H100 obsługująca do siedmiu instancji
  • Sprzętowe dekodowanie wideo zestawu funkcji PureVideo
  • 8 NVDEC dla H100
  • Dodaje nowe sprzętowe jednordzeniowe dekodowanie JPEG z 7 dekoderami sprzętowymi NVJPG ( NVJPG ) z YUV420, YUV422, YUV444, YUV400, RGBA. Nie należy mylić z Nvidia NVJPEG ( biblioteka przyspieszana przez GPU do kodowania / dekodowania JPEG)

Frytki

  • GH100

Porównanie możliwości obliczeniowych: GP100 vs GV100 vs GA100 vs GH100

Funkcje GPU NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA A100 NVIDIA H100
Nazwa kodowa GPU GP100 GV100 GA100 GH100
Architektura GPU NVIDII Pascal NVIDIA Volta NVIDIA Amper Nvidia Hopper
Tranzystory 15,3 miliarda 21,1 miliarda 54,2 miliarda 80 miliardów
Proces 16nm 12nm TSMC 7 nm TSMC 4 nm
Rozmiar matrycy 610mm 2 828mm 2 815 mm 2 814 mm 2
Możliwości obliczeniowe 6.0 7.0 8.0 9.0
Nici / osnowa 32 32 32 32
Maksymalne wypaczenia / SM 64 64 64 64
Maksymalna liczba wątków / SM 2048 2048 2048 2048
Maks. bloki nici / SM 32 32 32 32
Maksymalna liczba bloków wątków / klastrów bloków wątków Nie dotyczy Nie dotyczy Nie dotyczy 16
Maks. rejestry 32-bitowe / SM 65536 65536 65536 65536
Maksymalna liczba rejestrów / bloków 65536 65536 65536 65536
Maksymalna liczba rejestrów / wątek 255 255 255 255
Maksymalny rozmiar bloku nici 1024 1024 1024 1024
Rdzenie FP32 / SM 64 64 64 128
Stosunek rejestrów SM do rdzeni FP32 1024 1024 1024 512
Rozmiar pamięci współdzielonej / SM 64 kB Konfigurowalny do 96 KB Konfigurowalny do 164 KB Konfigurowalny do 228 KB

Porównanie precyzyjnej macierzy wsparcia

Obsługiwane precyzje rdzenia CUDA Obsługiwane precyzje rdzenia Tensor
FP8 FP16 FP32 FP64 WEWN1 WEWN4 INT8 TF32 BF16 FP8 FP16 FP32 FP64 WEWN1 WEWN4 INT8 TF32 BF16
NVIDIA Tesla P4 NIE NIE Tak Tak NIE NIE Tak NIE NIE NIE NIE NIE NIE NIE NIE NIE NIE NIE
NVIDIA P100 NIE Tak Tak Tak NIE NIE NIE NIE NIE NIE NIE NIE NIE NIE NIE NIE NIE NIE
NVIDIA Volta NIE Tak Tak Tak NIE NIE Tak NIE NIE NIE Tak NIE NIE NIE NIE NIE NIE NIE
NVIDIA Turing NIE Tak Tak Tak NIE NIE Tak NIE NIE NIE Tak NIE NIE Tak Tak Tak NIE NIE
NVIDIA A100 NIE Tak Tak Tak NIE NIE Tak NIE Tak NIE Tak NIE Tak Tak Tak Tak Tak Tak
NVIDIA H100 NIE Tak Tak Tak NIE NIE Tak NIE Tak Tak Tak NIE Tak NIE NIE Tak Tak Tak

Legenda:

  • FPnn: liczba zmiennoprzecinkowa z nn bitami
  • INTn: liczba całkowita z n bitami
  • LCAŁK1: binarny
  • TF32: TensorFloat32
  • BF16: bfloat16

Porównanie wydajności dekodowania

Jednoczesne strumienie Dekodowanie H.264 (1080p30) Dekodowanie H.265 (HEVC) (1080p30) Dekodowanie VP9 (1080p30)
V100 16 22 22
A100 75 157 108
H100 170 340 260
Obrazy/sek Dekodowanie JPEG 4:4:4 (1080p) Dekodowanie JPEG 4:2:0 (1080p)
A100 1490 2950
H100 3310 6350

Produkty korzystające z Hoppera

Zobacz też