Hopper (mikroarchitektura)

Nvidia Hopper
Proces wytwarzania	TSMC N4
Historia
Poprzednik	Amper (konsumencki, profesjonalny)
Stan wsparcia
	Obsługiwane

Grace Hopper, eponim architektury

Hopper to kryptonim mikroarchitektury GPU Datacenter firmy Nvidia , która będzie równoległą wersją Ady Lovelace (dla segmentu konsumenckiego). ^{[ potrzebne źródło ]} Jej nazwa pochodzi od amerykańskiego informatyka i kontradmirała Marynarki Wojennej Stanów Zjednoczonych Grace Hopper . Kiedyś krążyły plotki, że Hopper będzie pierwszą generacją procesorów graficznych Nvidii, które będą wykorzystywać moduły wieloukładowe (MCM), chociaż ogłoszenie H100 pokazywało ogromną monolityczną kostkę. Nvidia oficjalnie ogłosiła mikroarchitekturę GPU Hopper i GPU H100 na GTC 2022 22 marca 2022 r.

Detale

Udoskonalenia architektoniczne architektury Hopper obejmują:

Możliwości obliczeniowe CUDA 9.0
Proces TSMC N4 FinFET
Rdzenie Tensor czwartej generacji z obsługą FP8, FP16, bfloat16, TensorFloat-32 (TF32) i FP64 oraz akceleracją sparsity.
Nowy silnik Nvidia Transformer z FP8 i FP16
Nowe instrukcje DPX
Pamięć o dużej przepustowości 3 (HBM3) w H100 80 GB
Podwójne rdzenie FP32 na multiprocesor strumieniowy (SM)
NVLink 4.0
PCI Express 5.0 z obsługą SR-IOV (SR-IOV jest zarezerwowany tylko dla H100)
Wirtualizacja z wieloma instancjami GPU (MIG) drugiej generacji i funkcja partycjonowania GPU w H100 obsługująca do siedmiu instancji
Sprzętowe dekodowanie wideo zestawu funkcji PureVideo
8 NVDEC dla H100
Dodaje nowe sprzętowe jednordzeniowe dekodowanie JPEG z 7 dekoderami sprzętowymi NVJPG ( NVJPG ) z YUV420, YUV422, YUV444, YUV400, RGBA. Nie należy mylić z Nvidia NVJPEG ( biblioteka przyspieszana przez GPU do kodowania / dekodowania JPEG)

Frytki

GH100

Porównanie możliwości obliczeniowych: GP100 vs GV100 vs GA100 vs GH100

Funkcje GPU	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100	NVIDIA H100
Nazwa kodowa GPU	GP100	GV100	GA100	GH100
Architektura GPU	NVIDII Pascal	NVIDIA Volta	NVIDIA Amper	Nvidia Hopper
Tranzystory	15,3 miliarda	21,1 miliarda	54,2 miliarda	80 miliardów
Proces	16nm	12nm	TSMC 7 nm	TSMC 4 nm
Rozmiar matrycy	610mm ²	828mm ²	815 mm ²	814 mm ²
Możliwości obliczeniowe	6.0	7.0	8.0	9.0
Nici / osnowa	32	32	32	32
Maksymalne wypaczenia / SM	64	64	64	64
Maksymalna liczba wątków / SM	2048	2048	2048	2048
Maks. bloki nici / SM	32	32	32	32
Maksymalna liczba bloków wątków / klastrów bloków wątków	Nie dotyczy	Nie dotyczy	Nie dotyczy	16
Maks. rejestry 32-bitowe / SM	65536	65536	65536	65536
Maksymalna liczba rejestrów / bloków	65536	65536	65536	65536
Maksymalna liczba rejestrów / wątek	255	255	255	255
Maksymalny rozmiar bloku nici	1024	1024	1024	1024
Rdzenie FP32 / SM	64	64	64	128
Stosunek rejestrów SM do rdzeni FP32	1024	1024	1024	512
Rozmiar pamięci współdzielonej / SM	64 kB	Konfigurowalny do 96 KB	Konfigurowalny do 164 KB	Konfigurowalny do 228 KB

Porównanie precyzyjnej macierzy wsparcia

	FP8	FP16	FP32	FP64	WEWN1	WEWN4	INT8	TF32	BF16	FP8	FP16	FP32	FP64	WEWN1	WEWN4	INT8	TF32	BF16
	Obsługiwane precyzje rdzenia CUDA									Obsługiwane precyzje rdzenia Tensor
NVIDIA Tesla P4	NIE	NIE	Tak	Tak	NIE	NIE	Tak	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE
NVIDIA P100	NIE	Tak	Tak	Tak	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE	NIE
NVIDIA Volta	NIE	Tak	Tak	Tak	NIE	NIE	Tak	NIE	NIE	NIE	Tak	NIE	NIE	NIE	NIE	NIE	NIE	NIE
NVIDIA Turing	NIE	Tak	Tak	Tak	NIE	NIE	Tak	NIE	NIE	NIE	Tak	NIE	NIE	Tak	Tak	Tak	NIE	NIE
NVIDIA A100	NIE	Tak	Tak	Tak	NIE	NIE	Tak	NIE	Tak	NIE	Tak	NIE	Tak	Tak	Tak	Tak	Tak	Tak
NVIDIA H100	NIE	Tak	Tak	Tak	NIE	NIE	Tak	NIE	Tak	Tak	Tak	NIE	Tak	NIE	NIE	Tak	Tak	Tak

Legenda:

FPnn: liczba zmiennoprzecinkowa z nn bitami
INTn: liczba całkowita z n bitami
LCAŁK1: binarny
TF32: TensorFloat32
BF16: bfloat16

Porównanie wydajności dekodowania

Jednoczesne strumienie	Dekodowanie H.264 (1080p30)	Dekodowanie H.265 (HEVC) (1080p30)	Dekodowanie VP9 (1080p30)
V100	16	22	22
A100	75	157	108
H100	170	340	260

Obrazy/sek	Dekodowanie JPEG 4:4:4 (1080p)	Dekodowanie JPEG 4:2:0 (1080p)
A100	1490	2950
H100	3310	6350

Produkty korzystające z Hoppera

Procesory graficzne Nvidia Data Center
- Nvidia H100 80 GB (GH100)

Zobacz też

Lista eponimów mikroarchitektur GPU Nvidia