Rozkładanie danych

W komputerowym przechowywaniu danych paskowanie danych to technika segmentacji logicznie sekwencyjnych danych, takich jak plik, dzięki czemu kolejne segmenty są przechowywane na różnych fizycznych urządzeniach pamięci masowej .

Przykład stripingu danych. Pliki A i B, po cztery bloki każdy, są rozłożone na dyskach od D1 do D3.

Rozkładanie jest przydatne, gdy urządzenie przetwarzające żąda danych szybciej, niż może je dostarczyć pojedyncze urządzenie pamięci masowej. Dzięki rozłożeniu segmentów na wiele urządzeń, do których można uzyskać jednoczesny dostęp, zwiększa się całkowita przepustowość danych. Jest to również użyteczna metoda równoważenia obciążenia we/wy w obrębie macierzy dysków. Striping jest stosowany na dyskach w redundantnej macierzy niezależnych dysków (RAID), kontrolerach interfejsu sieciowego , macierzach dyskowych, różnych komputerach w klastrowych systemach plików i pamięci masowej zorientowanej na siatkę oraz w niektórych systemach w pamięci RAM .

metoda

Jedna metoda paskowania polega na przeplataniu kolejnych segmentów na urządzeniach pamięci masowej w sposób okrężny od początku sekwencji danych. Działa to dobrze w przypadku przesyłania strumieniowego danych, ale późniejsze losowe dostępy będą wymagały wiedzy o tym, które urządzenie zawiera dane. Jeśli dane są przechowywane w taki sposób, że fizyczny adres każdego segmentu danych jest przypisany do konkretnego urządzenia w postaci mapowania jeden do jednego, urządzenie, które ma uzyskać dostęp do każdego żądanego segmentu, można obliczyć na podstawie adresu bez znajomości przesunięcia danych w obrębie pełna sekwencja.

Można zastosować inne sposoby, w których sekwencyjne segmenty nie są przechowywane na sekwencyjnych urządzeniach. Takie niesekwencyjne przeplatanie może przynieść korzyści w niektórych korekcji błędów .

Zalety i wady

Zalety paskowania obejmują wydajność i przepustowość. Sekwencyjne przeplatanie czasowe dostępów do danych umożliwia skumulowane pomnożenie mniejszej przepustowości dostępu do danych każdego urządzenia pamięci przez liczbę zastosowanych urządzeń pamięci. Zwiększona przepustowość pozwala urządzeniu przetwarzającemu dane kontynuować pracę bez przerw, a tym samym szybciej zakończyć swoje procedury. Przejawia się to w poprawie wydajności przetwarzania danych.

Ponieważ różne segmenty danych są przechowywane na różnych urządzeniach pamięci masowej, awaria jednego urządzenia powoduje uszkodzenie całej sekwencji danych. W efekcie wskaźnik awaryjności tablicy urządzeń pamięci masowej jest równy sumie wskaźnika awaryjności każdego urządzenia pamięci masowej. Tę wadę paskowania można przezwyciężyć przez przechowywanie nadmiarowych informacji, takich jak parzystość , w celu korekcji błędów. W takim systemie wadę można przezwyciężyć kosztem konieczności dodatkowej pamięci.

Terminologia

Segmenty danych sekwencyjnych zapisywanych lub odczytywanych z dysku przed kontynuacją operacji na następnym dysku są zwykle nazywane porcjami , krokami lub jednostkami rozłożonymi , podczas gdy ich logiczne grupy tworzące pojedyncze operacje rozłożone nazywane są paskami lub paskami . Ilość danych w jednym kawałku (jednostka paskowa), często wyrażona w bajtach, jest różnie określana jako rozmiar kawałka , rozmiar kroku , rozmiar paska , głębokość paska lub długość paska . Liczba dysków z danymi w tablicy jest czasami nazywana szerokością paska , ale może również odnosić się do ilości danych w pasku.

Ilość danych w jednym kroku pomnożona przez liczbę dysków z danymi w macierzy (tj. głębokość paska razy szerokość paska , co w analogii geometrycznej dałoby obszar) jest czasami nazywana rozmiarem paska lub szerokością paska . Szerokie paski występują, gdy porcje danych są rozproszone w wielu macierzach, prawdopodobnie na wszystkich dyskach w systemie. Wąskie paski występują, gdy porcje danych są rozłożone na dyskach w jednej macierzy.

Aplikacje

Rozkładanie danych jest stosowane w niektórych bazach danych , takich jak Sybase , oraz w niektórych urządzeniach RAID kontrolowanych przez oprogramowanie lub sprzęt, takich jak podsystem IBM 9394 RAMAC Array. Systemy plików klastrów również używają paskowania. Oracle Automatic Storage Management umożliwia stosowanie plików ASM w postaci grubych lub cienkich pasków.

RAID: W niektórych konfiguracjach RAID, takich jak RAID 0 , awaria jednego dysku w macierzy RAID powoduje utratę wszystkich przechowywanych danych. W innych konfiguracjach RAID, takich jak RAID 5 , który zawiera rozproszoną kontrolę parzystości i zapewnia nadmiarowość , jeśli jeden dysk składowy ulegnie awarii, dane można przywrócić przy użyciu innych dysków w macierzy. Paski danych

LVM2: można również uzyskać za pomocą zarządzania woluminami logicznymi (LVM) systemu Linux. System LVM pozwala na regulację grubości wzoru paskowania. Narzędzia LVM umożliwią implementację stripingu danych w połączeniu z dublowaniem . LVM oferuje dodatkową zaletę buforowania odczytu i zapisu w NVM Express dla wolno obracającej się pamięci masowej. LVM ma inne zalety, które nie są bezpośrednio związane z stripingiem danych (takie jak migawki, dynamiczna zmiana rozmiaru itp.).

Btrfs i ZFS: mają funkcje podobne do RAID, ale z bezpieczeństwem integralności fragmentów w celu wykrywania uszkodzonych bloków oraz dodatkową elastycznością dodawania dowolnej liczby dodatkowych dysków. Mają też inne zalety, które nie są bezpośrednio związane z stripingiem danych (kopiowanie przy zapisie itp.).

Zobacz też

RAID
Nadmiarowa macierz niezależnych dysków
Macierze dyskowe	Czyszczenie danych Rozkładanie danych Kontroler macierzy dyskowych Dublowanie dysku Napęd parzystości
poziomy RAID	Standard Zagnieżdżone Niestandardowe
Zasady	Dostępność Tolerancja błędów Nadmiarowość danych Tryb zdegradowany Przełączanie awaryjne Bit parzystości Replikacja Skalowalność Wydajność
Interfejsy	bioctl geom mdm Oracle ZFS
Architektury dysków inne niż RAID