Hopper (mikroarchitektura)
Proces wytwarzania | TSMC N4 |
---|---|
Historia | |
Poprzednik | Amper (konsumencki, profesjonalny) |
Stan wsparcia | |
Obsługiwane |
Hopper to kryptonim mikroarchitektury GPU Datacenter firmy Nvidia , która będzie równoległą wersją Ady Lovelace (dla segmentu konsumenckiego). [ potrzebne źródło ] Jej nazwa pochodzi od amerykańskiego informatyka i kontradmirała Marynarki Wojennej Stanów Zjednoczonych Grace Hopper . Kiedyś krążyły plotki, że Hopper będzie pierwszą generacją procesorów graficznych Nvidii, które będą wykorzystywać moduły wieloukładowe (MCM), chociaż ogłoszenie H100 pokazywało ogromną monolityczną kostkę. Nvidia oficjalnie ogłosiła mikroarchitekturę GPU Hopper i GPU H100 na GTC 2022 22 marca 2022 r.
Detale
Udoskonalenia architektoniczne architektury Hopper obejmują:
- Możliwości obliczeniowe CUDA 9.0
- Proces TSMC N4 FinFET
- Rdzenie Tensor czwartej generacji z obsługą FP8, FP16, bfloat16, TensorFloat-32 (TF32) i FP64 oraz akceleracją sparsity.
- Nowy silnik Nvidia Transformer z FP8 i FP16
- Nowe instrukcje DPX
- Pamięć o dużej przepustowości 3 (HBM3) w H100 80 GB
- Podwójne rdzenie FP32 na multiprocesor strumieniowy (SM)
- NVLink 4.0
- PCI Express 5.0 z obsługą SR-IOV (SR-IOV jest zarezerwowany tylko dla H100)
- Wirtualizacja z wieloma instancjami GPU (MIG) drugiej generacji i funkcja partycjonowania GPU w H100 obsługująca do siedmiu instancji
- Sprzętowe dekodowanie wideo zestawu funkcji PureVideo
- 8 NVDEC dla H100
- Dodaje nowe sprzętowe jednordzeniowe dekodowanie JPEG z 7 dekoderami sprzętowymi NVJPG ( NVJPG ) z YUV420, YUV422, YUV444, YUV400, RGBA. Nie należy mylić z Nvidia NVJPEG ( biblioteka przyspieszana przez GPU do kodowania / dekodowania JPEG)
Frytki
- GH100
Porównanie możliwości obliczeniowych: GP100 vs GV100 vs GA100 vs GH100
Funkcje GPU | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 | NVIDIA H100 |
---|---|---|---|---|
Nazwa kodowa GPU | GP100 | GV100 | GA100 | GH100 |
Architektura GPU | NVIDII Pascal | NVIDIA Volta | NVIDIA Amper | Nvidia Hopper |
Tranzystory | 15,3 miliarda | 21,1 miliarda | 54,2 miliarda | 80 miliardów |
Proces | 16nm | 12nm | TSMC 7 nm | TSMC 4 nm |
Rozmiar matrycy | 610mm 2 | 828mm 2 | 815 mm 2 | 814 mm 2 |
Możliwości obliczeniowe | 6.0 | 7.0 | 8.0 | 9.0 |
Nici / osnowa | 32 | 32 | 32 | 32 |
Maksymalne wypaczenia / SM | 64 | 64 | 64 | 64 |
Maksymalna liczba wątków / SM | 2048 | 2048 | 2048 | 2048 |
Maks. bloki nici / SM | 32 | 32 | 32 | 32 |
Maksymalna liczba bloków wątków / klastrów bloków wątków | Nie dotyczy | Nie dotyczy | Nie dotyczy | 16 |
Maks. rejestry 32-bitowe / SM | 65536 | 65536 | 65536 | 65536 |
Maksymalna liczba rejestrów / bloków | 65536 | 65536 | 65536 | 65536 |
Maksymalna liczba rejestrów / wątek | 255 | 255 | 255 | 255 |
Maksymalny rozmiar bloku nici | 1024 | 1024 | 1024 | 1024 |
Rdzenie FP32 / SM | 64 | 64 | 64 | 128 |
Stosunek rejestrów SM do rdzeni FP32 | 1024 | 1024 | 1024 | 512 |
Rozmiar pamięci współdzielonej / SM | 64 kB | Konfigurowalny do 96 KB | Konfigurowalny do 164 KB | Konfigurowalny do 228 KB |
Porównanie precyzyjnej macierzy wsparcia
Obsługiwane precyzje rdzenia CUDA | Obsługiwane precyzje rdzenia Tensor | |||||||||||||||||
FP8 | FP16 | FP32 | FP64 | WEWN1 | WEWN4 | INT8 | TF32 | BF16 | FP8 | FP16 | FP32 | FP64 | WEWN1 | WEWN4 | INT8 | TF32 | BF16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Tesla P4 | NIE | NIE | Tak | Tak | NIE | NIE | Tak | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE |
NVIDIA P100 | NIE | Tak | Tak | Tak | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE | NIE |
NVIDIA Volta | NIE | Tak | Tak | Tak | NIE | NIE | Tak | NIE | NIE | NIE | Tak | NIE | NIE | NIE | NIE | NIE | NIE | NIE |
NVIDIA Turing | NIE | Tak | Tak | Tak | NIE | NIE | Tak | NIE | NIE | NIE | Tak | NIE | NIE | Tak | Tak | Tak | NIE | NIE |
NVIDIA A100 | NIE | Tak | Tak | Tak | NIE | NIE | Tak | NIE | Tak | NIE | Tak | NIE | Tak | Tak | Tak | Tak | Tak | Tak |
NVIDIA H100 | NIE | Tak | Tak | Tak | NIE | NIE | Tak | NIE | Tak | Tak | Tak | NIE | Tak | NIE | NIE | Tak | Tak | Tak |
Legenda:
- FPnn: liczba zmiennoprzecinkowa z nn bitami
- INTn: liczba całkowita z n bitami
- LCAŁK1: binarny
- TF32: TensorFloat32
- BF16: bfloat16
Porównanie wydajności dekodowania
Jednoczesne strumienie | Dekodowanie H.264 (1080p30) | Dekodowanie H.265 (HEVC) (1080p30) | Dekodowanie VP9 (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
H100 | 170 | 340 | 260 |
Obrazy/sek | Dekodowanie JPEG 4:4:4 (1080p) | Dekodowanie JPEG 4:2:0 (1080p) |
---|---|---|
A100 | 1490 | 2950 |
H100 | 3310 | 6350 |
Produkty korzystające z Hoppera
-
Procesory graficzne Nvidia Data Center
- Nvidia H100 80 GB (GH100)