Pamięć Scratchpada

Pamięć Scratchpad ( SPM ), znana również jako scratchpad , scratchpad RAM lub magazyn lokalny w terminologii komputerowej , to pamięć wewnętrzna, zwykle szybka, używana do tymczasowego przechowywania obliczeń, danych i innych prac w toku. W odniesieniu do mikroprocesora (lub CPU ) notatnik odnosi się do specjalnej szybkiej pamięci używanej do przechowywania małych elementów danych w celu ich szybkiego wyszukiwania. Jest podobny do użycia i rozmiaru notatnika w życiu: notatnik do wstępnych notatek, szkiców lub pism itp. Kiedy notatnik jest ukrytą częścią pamięci głównej, jest czasami określany jako pamięć wypukłości .

W niektórych systemach można ją uznać za podobną do pamięci podręcznej L1 , ponieważ jest następną pamięcią najbliżej jednostki ALU po rejestracji procesora , z wyraźnymi instrukcjami przenoszenia danych do iz pamięci głównej , często przy użyciu transferu danych opartego na DMA . W przeciwieństwie do systemu wykorzystującego pamięci podręczne, system z notatnikami jest systemem o nierównomiernym dostępie do pamięci (NUMA) opóźnienia, ponieważ opóźnienia dostępu do pamięci różnych notatników i pamięci głównej są różne. Inną różnicą w stosunku do systemu wykorzystującego pamięć podręczną jest to, że notatnik zwykle nie zawiera kopii danych, które są również przechowywane w pamięci głównej.

Scratchpady są wykorzystywane do uproszczenia logiki buforowania i zagwarantowania, że ​​jednostka może pracować bez rywalizacji o pamięć główną w systemie wykorzystującym wiele procesorów, zwłaszcza w wieloprocesorowym systemie na chipie dla systemów wbudowanych . Nadają się głównie do przechowywania tymczasowych wyników (takie, jakie można znaleźć w stosie procesora), które zwykle nie muszą być zawsze zapisywane w pamięci głównej; jednak gdy są zasilane przez DMA , mogą być również używane zamiast pamięci podręcznej do odzwierciedlania stanu wolniejszej pamięci głównej. Te same kwestie lokalności odniesienia stosuje się w odniesieniu do efektywności użytkowania; chociaż niektóre systemy umożliwiają dostęp do prostokątnych zestawów danych za pomocą strided DMA. Inną różnicą jest to, że notatniki są jawnie manipulowane przez aplikacje. Mogą być przydatne w aplikacjach czasu rzeczywistego , w których zachowanie pamięci podręcznej utrudnia przewidywalność taktowania.

Brudnopisy nie są używane w głównych procesorach do komputerów stacjonarnych, gdzie wymagana jest ogólność, aby starsze oprogramowanie mogło działać z pokolenia na pokolenie, w których rozmiar dostępnej pamięci na chipie może się zmieniać. Lepiej sprawdzają się w systemach wbudowanych, procesorach specjalnego przeznaczenia i konsolach do gier , gdzie układy scalone są często produkowane jako MPSoC , a oprogramowanie jest często dostrajane do jednej konfiguracji sprzętowej.

Przykłady użycia

  • Fairchild F8 z 1975 roku zawierał 64 bajty notatnika.
  • TI -99/4A ma 256 bajtów pamięci notatnika na 16-bitowej szynie zawierającej rejestry procesora TMS9900
  • Cyrix 6x86 to jedyny procesor do komputerów stacjonarnych zgodny z x86 , który zawiera dedykowany notatnik.
  • SuperH , używany w konsolach Sega, mógł blokować pamięci podręczne na adres poza pamięcią główną do wykorzystania jako notatnik.
  • R3000 Sony PS1 miał notatnik zamiast pamięci podręcznej L1. Tutaj można było umieścić stos procesora, przykład tymczasowego wykorzystania przestrzeni roboczej.
  • Koprocesor równoległy Epiphany firmy Adapteva zawiera lokalne magazyny dla każdego rdzenia, połączone siecią na chipie , z możliwym DMA między nimi i łączami poza chipem (prawdopodobnie z DRAM). Architektura jest podobna do Sony Cell, z wyjątkiem tego, że wszystkie rdzenie mogą bezpośrednio adresować swoje notatniki, generując wiadomości sieciowe na podstawie standardowych instrukcji ładowania/zapisywania.
  • Sony PS2 Emotion Engine zawiera notatnik o pojemności 16 KB , do i z którego transfery DMA mogą być wysyłane do jego GS i pamięci głównej.
  • Cell są ograniczone wyłącznie do pracy w ich „lokalnym sklepie”, polegając na DMA do transferów z/do pamięci głównej i między lokalnymi sklepami, podobnie jak notatnik. W związku z tym dodatkową korzyścią jest brak sprzętu do sprawdzania i aktualizowania spójności między wieloma pamięciami podręcznymi: projekt wykorzystuje założenie, że obszar roboczy każdego procesora jest oddzielny i prywatny. Oczekuje się, że korzyści te staną się bardziej zauważalne, gdy liczba procesorów będzie rosła w przyszłości „wielordzeniowej”. Jednak z powodu wyeliminowania niektórych logik sprzętowych dane i instrukcje aplikacji w SPE muszą być zarządzane przez oprogramowanie, jeśli całe zadanie w SPE nie mieści się w lokalnym sklepie.
  • Wiele innych procesorów umożliwia blokowanie linii pamięci podręcznej L1.
  • Większość cyfrowych procesorów sygnałowych używa notatnika. Wiele wcześniejszych akceleratorów 3D i konsol do gier (w tym PS2) wykorzystywało procesory DSP do transformacji wierzchołków . Różni się to od podejścia opartego na strumieniu nowoczesnych procesorów graficznych, które mają więcej wspólnego z funkcjami pamięci podręcznej procesora.
  • Procesor graficzny NVIDIA 8800 działający pod kontrolą CUDA zapewnia 16 KB notatnika (NVIDIA nazywa to pamięcią współdzieloną) na pakiet wątków, gdy jest używany do zadań GPGPU . Scratchpad był również używany w późniejszych procesorach graficznych Fermi ( seria GeForce 400 ).
  • PhysX firmy Ageia zawiera pamięć RAM typu scratchpad w sposób podobny do Cell; teoria tej konkretnej jednostki przetwarzającej fizykę jest taka, że ​​hierarchia pamięci podręcznej jest mniej użyteczna niż fizyka zarządzana przez oprogramowanie i obliczenia kolizji. Te pamięci są również bankowane, a transferami między nimi zarządza przełącznik.
  • Procesor Intel Knights Landing ma 16 GB pamięci MCDRAM, którą można skonfigurować jako pamięć podręczną, pamięć podręczną lub podzieloną na część pamięci podręcznej i część pamięci podręcznej.
  • Movidius Myriad 2 , jednostka przetwarzania obrazu , zorganizowana w architekturze wielordzeniowej z dużym, wieloportowym, współdzielonym notatnikiem.
  • Graphcore zaprojektował akcelerator AI oparty na pamięciach typu scratchpad

Alternatywy

Kontrola pamięci podręcznej a notatniki

Niektóre architektury, takie jak PowerPC, próbują uniknąć konieczności blokowania pamięci podręcznej lub notatników za pomocą instrukcji kontroli pamięci podręcznej . Oznaczanie obszaru pamięci za pomocą „Blok pamięci podręcznej danych: zero” (przydzielanie wiersza, ale ustawianie jego zawartości na zero zamiast ładowania z pamięci głównej) i odrzucanie go po użyciu („Blok pamięci podręcznej danych: unieważnienie”, sygnalizujący, że pamięć główna nie” nie otrzymywać żadnych zaktualizowanych danych), pamięć podręczna zachowuje się jak notatnik. Utrzymuje się ogólną zasadę, że są to wskazówki, a podstawowy sprzęt będzie działał poprawnie niezależnie od rzeczywistego rozmiaru pamięci podręcznej.

Wspólne lokalne sklepy L2 vs Cell

Jeśli chodzi o komunikację międzyprocesorową w konfiguracji wielordzeniowej, istnieją podobieństwa między międzylokalnym sklepem DMA komórki a współdzieloną konfiguracją pamięci podręcznej L2, jak w Intel Core 2 Duo lub niestandardowym komputerze typu powerPC konsoli Xbox 360: pamięć podręczna L2 umożliwia procesorom udostępnianie wyników bez być zapisany w pamięci głównej. Może to być zaletą, gdy zestaw roboczy dla algorytmu obejmuje całość pamięci podręcznej L2. Jednak gdy program jest napisany w celu wykorzystania DMA między magazynami lokalnymi, komórka ma tę zaletę, że każdy inny magazyn lokalny służy ZARÓWNO prywatnemu obszarowi roboczemu dla pojedynczego procesora ORAZ punktowi współdzielenia między procesorami; tj. inne sklepy lokalne są na podobnej stopie oglądanej z jednego procesora, jak współdzielona pamięć podręczna L2 w konwencjonalnym chipie. Kompromisem jest marnowanie pamięci na buforowanie i złożoność programowania do synchronizacji, chociaż byłoby to podobne do stron wstępnie buforowanych w konwencjonalnym chipie. Domeny, w których korzystanie z tej funkcji jest skuteczne, obejmują:

  • Przetwarzanie potokowe (w którym osiąga się ten sam efekt, co zwiększenie rozmiaru pamięci podręcznej L1 poprzez podzielenie jednego zadania na mniejsze części)
  • Rozszerzenie zestawu roboczego, np. idealne miejsce na sortowanie przez scalanie, w którym dane mieszczą się w granicach 8×256 KB
  • Przesyłanie współdzielonego kodu, na przykład ładowanie fragmentu kodu do jednego SPU, a następnie kopiowanie go stamtąd do innych, aby uniknąć ponownego uderzenia w pamięć główną

Konwencjonalny procesor mógłby uzyskać podobne korzyści dzięki instrukcjom kontroli pamięci podręcznej, na przykład umożliwiając wstępne pobieranie do L1 z pominięciem L2 lub wskazówkę eksmisji, która sygnalizowała transfer z L1 do L2, ale nie zapisuje się do pamięci głównej; jednak obecnie żaden system nie oferuje tej możliwości w użytecznej formie, a takie instrukcje w efekcie powinny odzwierciedlać wyraźny transfer danych między obszarami pamięci podręcznej używanymi przez każdy rdzeń.

Zobacz też

Notatki

Linki zewnętrzne