Technika analizy i raportowania samooceny

Self-Monitoring, Analysis and Reporting Technology ( SMART , często zapisywany jako SMART ) to system monitorowania zawarty w komputerowych dyskach twardych (HDD) i dyskach półprzewodnikowych (SSD). Jego podstawową funkcją jest wykrywanie i zgłaszanie różnych wskaźników niezawodności dysku w celu przewidywania zbliżających się awarii sprzętu.

Gdy dane SMART wskazują na możliwą nieuchronną awarię dysku, oprogramowanie działające w systemie hosta może powiadomić użytkownika, aby można było podjąć działania zapobiegawcze w celu zapobieżenia utracie danych, wymienić uszkodzony dysk i zachować integralność danych.

Tło

Dysk twardy i inne dyski podlegają awariom (patrz awarie dysku twardego ), które można podzielić na dwie podstawowe klasy:

  • Przewidywalne awarie wynikające z powolnych procesów, takich jak zużycie mechaniczne i stopniowa degradacja powierzchni magazynowych. Monitorowanie może określić, kiedy takie awarie stają się bardziej prawdopodobne.
  • Nieprzewidywalne awarie , które występują bez ostrzeżenia z powodu czegokolwiek, od uszkodzenia elementów elektronicznych po nagłą awarię mechaniczną, w tym awarie związane z niewłaściwą obsługą.

Awarie mechaniczne stanowią około 60% wszystkich awarii napędów. Podczas gdy ewentualna awaria może być katastrofalna, większość awarii mechanicznych wynika ze stopniowego zużycia i zwykle istnieją pewne oznaki, że awaria jest nieuchronna. Mogą to być zwiększone wydzielanie ciepła, zwiększony poziom hałasu, problemy z odczytem i zapisem danych, czy wzrost liczby uszkodzonych sektorów dysku.

Strona PCTechGuide na SMART (2003) komentuje, że technologia przeszła przez trzy fazy:

W swoim pierwotnym wcieleniu SMART przewidywał awarie, monitorując niektóre działania dysku twardego online.

Kolejna wersja standardu ulepszyła przewidywanie awarii, dodając automatyczne skanowanie odczytu offline w celu monitorowania dodatkowych operacji. Atrybuty online są zawsze aktualizowane, podczas gdy atrybuty offline są aktualizowane, gdy dysk twardy nie działa. Jeśli zachodzi natychmiastowa potrzeba aktualizacji atrybutów offline, dysk twardy zwalnia, a atrybuty offline są aktualizowane. Najnowsza technologia „SMART” nie tylko monitoruje aktywność dysków twardych, ale dodatkowo zapobiega awariom, próbując wykrywać i naprawiać błędy sektorów.

Ponadto, podczas gdy wcześniejsze wersje technologii monitorowały aktywność dysku twardego tylko pod kątem danych pobieranych przez system operacyjny, najnowsza wersja SMART testuje wszystkie dane i wszystkie sektory dysku za pomocą „zbierania danych w trybie offline”, aby potwierdzić stan dysku podczas okresy bezczynności.

Dokładność

Badanie terenowe w Google obejmujące ponad 100 000 dysków klasy konsumenckiej od grudnia 2005 do sierpnia 2006 wykazało korelacje między niektórymi informacjami SMART a rocznymi wskaźnikami awaryjności:

  • W ciągu 60 dni od pierwszego nienaprawialnego błędu na dysku ( atrybut SMART 0xC6 lub 198) wykrytego w wyniku skanowania w trybie offline, prawdopodobieństwo awarii dysku było średnio 39 razy większe niż w przypadku podobnego dysku, dla którego nie wystąpił taki błąd wystąpił.
  • Pierwsze błędy w realokacjach, realokacjach offline ( atrybuty SMART 0xC4 i 0x05 lub 196 i 5) oraz rachunkach próbnych ( atrybut SMART 0xC5 lub 197) były również silnie skorelowane z wyższym prawdopodobieństwem niepowodzenia.
  • I odwrotnie, stwierdzono niewielką korelację dla podwyższonej temperatury i brak korelacji dla poziomu użytkowania. Jednak badanie wykazało, że duża część (56%) uszkodzonych dysków uległa awarii bez zarejestrowania jakiejkolwiek liczby w „czterech silnych ostrzeżeniach SMART” zidentyfikowanych jako błędy skanowania, liczba realokacji, realokacja offline i liczba okresu próbnego.
  • Co więcej, 36% uszkodzonych dysków nie zarejestrowało żadnego błędu SMART, z wyjątkiem temperatury, co oznacza, że ​​same dane SMART miały ograniczoną przydatność w przewidywaniu awarii.

Historia i poprzednicy

Wczesna technologia monitorowania dysków twardych została wprowadzona przez IBM w 1992 roku w IBM 9337 Disk Arrays dla serwerów AS/400 korzystających z dysków IBM 0662 SCSI-2. Później nazwano ją Predictive Failure Analysis (PFA). Mierzono kilka kluczowych parametrów stanu urządzenia i oceniano je w oprogramowaniu układowym dysku. Komunikacja między jednostką fizyczną a oprogramowaniem monitorującym była ograniczona do wyniku binarnego: albo „urządzenie jest w porządku”, albo „dysk prawdopodobnie wkrótce ulegnie awarii”.

Później inny wariant, który został nazwany IntelliSafe, został stworzony przez producenta komputerów Compaq i producentów dysków Seagate , Quantum i Conner . Napędy dysków mierzyłyby „parametry kondycji” dysku, a wartości byłyby przesyłane do systemu operacyjnego i oprogramowania monitorującego przestrzeń użytkownika. Każdy producent dysków miał swobodę decydowania, które parametry mają być uwzględniane w monitorowaniu i jakie powinny być ich wartości progowe. Ujednolicenie odbywało się na poziomie protokołu z hostem.

Firma Compaq przedłożyła IntelliSafe komitetowi Small Form Factor (SFF) w celu standaryzacji na początku 1995 r. Był wspierany przez IBM, partnerów rozwojowych firmy Compaq, Seagate, Quantum i Conner, oraz przez firmę Western Digital , która nie miała systemu przewidywania awarii na początku 1995 r. czas. Komitet wybrał podejście IntelliSafe, ponieważ zapewniało ono większą elastyczność. Compaq umieścił IntelliSafe w domenie publicznej 12 maja 1995 r. Powstały wspólnie opracowany standard został nazwany SMART.

Ten standard SFF opisywał protokół komunikacyjny dla hosta ATA do używania i kontrolowania monitorowania i analizy na dysku twardym, ale nie określał żadnych konkretnych metryk ani metod analizy. Później zaczęto rozumieć, że „SMART” (choć bez żadnej formalnej specyfikacji) odnosi się do różnych konkretnych metryk i metod oraz ma zastosowanie do protokołów niezwiązanych z ATA do komunikacji tego samego rodzaju rzeczy.

Podane informacje

mSATA SSD z kontrolerem SandForce SF-2281 (Intel 525 mSATA SSD)

Dokumentacja techniczna SMART jest zgodna ze standardem AT Attachment (ATA). Wprowadzony po raz pierwszy w 1994 roku standard ATA przeszedł wiele zmian. Niektóre części oryginalnej specyfikacji SMART opracowanej przez komitet Small Form Factor (SFF). zostały dodane do ATA-3, opublikowanego w 1997 r. W 1998 r. ATA-4 zrezygnował z wymogu utrzymywania przez dyski wewnętrznej tabeli atrybutów i zamiast tego wymagał tylko zwracania wartości „OK” lub „NOT OK”. Producenci zachowali jednak możliwość odzyskania wartości atrybutów. Najnowszy standard ATA, ATA-8, został opublikowany w 2004 roku. Był poddawany regularnym modyfikacjom, ostatnia miała miejsce w 2011 roku. Standaryzacja podobnych funkcji SCSI jest rzadsza i nie jest tak nazywana w standardach, chociaż zarówno dostawcy, jak i konsumenci zapoznaj się również z tymi podobnymi funkcjami w SMART.

Najbardziej podstawową informacją dostarczaną przez SMART jest status SMART. Podaje tylko dwie wartości: „próg nie został przekroczony” i „próg został przekroczony”. Często są one przedstawiane odpowiednio jako „dysk OK” lub „awaria dysku”. Wartość „przekroczono próg” ma wskazywać, że istnieje stosunkowo duże prawdopodobieństwo, że dysk nie będzie w stanie spełnić swojej specyfikacji w przyszłości: to znaczy, że dysk „za chwilę ulegnie awarii”. Przewidywana awaria może być katastrofalna lub może być czymś tak subtelnym, jak brak możliwości zapisu do niektórych sektorów lub być może wolniejsza wydajność niż deklarowane przez producenta minimum.

Status SMART niekoniecznie wskazuje na przeszłą lub obecną niezawodność dysku. Jeśli dysk uległ już poważnej awarii, status SMART może być niedostępny. Alternatywnie, jeśli w przeszłości występowały problemy z dyskiem, ale czujniki już ich nie wykrywają, stan SMART może, w zależności od oprogramowania producenta, sugerować, że dysk jest teraz sprawny.

Brak możliwości odczytu niektórych sektorów nie zawsze oznacza, że ​​dysk jest bliski awarii. Jednym ze sposobów tworzenia nieczytelnych sektorów, nawet gdy dysk działa zgodnie ze specyfikacją, jest nagła awaria zasilania podczas zapisywania dysku. Ponadto, nawet jeśli dysk fizyczny jest uszkodzony w jednym miejscu, tak że określony sektor jest nieczytelny, dysk może wykorzystać wolne miejsce do zastąpienia uszkodzonego obszaru, aby sektor mógł zostać nadpisany.

Więcej szczegółów na temat stanu dysku można uzyskać, sprawdzając atrybuty SMART. Atrybuty SMART zostały uwzględnione w niektórych wersjach roboczych standardu ATA, ale zostały usunięte, zanim standard stał się ostateczny. Znaczenie i interpretacja atrybutów różni się w zależności od producenta i czasami są uważane za tajemnicę handlową dla jednego lub drugiego producenta. Atrybuty są dokładniej omówione poniżej.

Napędy ze SMART mogą opcjonalnie przechowywać pewną liczbę „dzienników”. Dziennik błędów rejestruje informacje o ostatnich błędach, które dysk zgłosił do komputera hosta. Zbadanie tego dziennika może pomóc w ustaleniu, czy problemy z komputerem są związane z dyskiem, czy spowodowane przez coś innego (sygnatury czasowe dziennika błędów mogą „zawijać się” po 2 32 ms = 49,71 dni)

Napęd obsługujący technologię SMART może opcjonalnie wdrożyć szereg procedur autotestu lub konserwacji, a wyniki testów są przechowywane w dzienniku autotestów . Procedury autotestu mogą być używane do wykrywania nieczytelnych sektorów na dysku, aby można je było przywrócić ze źródeł zapasowych (na przykład z innych dysków w macierzy RAID ) . Pomaga to zmniejszyć ryzyko poniesienia trwałej utraty danych.

Standardy i implementacja

Brak wspólnej interpretacji

Wiele płyt głównych wyświetla komunikat ostrzegawczy, gdy dysk zbliża się do awarii. Chociaż wśród większości głównych producentów dysków twardych istnieje standard branżowy, nadal występują problemy z powodu atrybutów celowo nieudokumentowanych opinii publicznej w celu rozróżnienia modeli między producentami. Z prawnego punktu widzenia termin „SMART” odnosi się tylko do metody sygnalizacji między czujnikami elektromechanicznymi wewnętrznego dysku a komputerem głównym. Z tego powodu specyfikacje SMART są całkowicie zależne od dostawcy i chociaż wiele z tych atrybutów zostało ustandaryzowanych między dostawcami dysków, inne pozostają specyficzne dla dostawcy. Implementacje SMART wciąż się różnią, aw niektórych przypadkach może brakować „wspólnych” lub oczekiwanych funkcji, takich jak czujnik temperatury lub zawierać tylko kilka wybranych atrybutów, jednocześnie umożliwiając producentowi reklamowanie produktu jako „zgodnego ze SMART”.

Widoczność dla systemów hosta

W zależności od typu używanego interfejsu, niektóre płyty główne obsługujące SMART i powiązane oprogramowanie mogą nie komunikować się z niektórymi napędami obsługującymi SMART. Na przykład kilka dysków zewnętrznych podłączonych przez USB i FireWire poprawnie przesyła dane SMART przez te interfejsy. Przy tak wielu sposobach podłączenia dysku twardego ( SCSI , Fibre Channel , ATA , SATA , SAS , SSA , NVMe itd.), trudno przewidzieć, czy raporty SMART będą poprawnie działać w danym systemie.

Nawet z dyskiem twardym i interfejsem zgodnym ze specyfikacją system operacyjny komputera może nie widzieć informacji SMART, ponieważ dysk i interfejs są zamknięte w niższej warstwie. Na przykład mogą być częścią podsystemu RAID, w którym kontroler RAID widzi dysk obsługujący SMART, ale komputer hosta widzi tylko wolumin logiczny wygenerowany przez kontroler RAID.

Na platformie Windows wiele programów zaprojektowanych do monitorowania i raportowania informacji SMART będzie działać tylko z kontem administratora .

System BIOS i system Windows ( Windows Vista i nowsze) mogą wykrywać stan SMART dysków twardych i dysków półprzewodnikowych oraz wyświetlać monit, jeśli stan SMART jest zły.

Atrybuty usługi ATA SMART

Każdy producent napędu definiuje zestaw atrybutów i ustala wartości progowe, powyżej których atrybuty nie powinny przechodzić podczas normalnej pracy. Każdy atrybut ma surową wartość , która może być wartością dziesiętną lub szesnastkową, której znaczenie zależy wyłącznie od producenta dysku (ale często odpowiada liczbie lub jednostce fizycznej, takiej jak stopnie Celsjusza lub sekundy), wartość znormalizowaną, która waha się od 1 do 253 (gdzie 1 oznacza najgorszy przypadek, a 253 najlepszy) i najgorszą wartość , co reprezentuje najniższą zarejestrowaną znormalizowaną wartość. Początkowa domyślna wartość atrybutów to 100, ale może się różnić w zależności od producenta.

Producenci, którzy wdrożyli co najmniej jeden atrybut SMART w różnych produktach, to między innymi Samsung , Seagate , IBM ( Hitachi ), Fujitsu , Maxtor , Toshiba , Intel , sTec, Inc. , Western Digital i ExcelStor Technology .

Znane atrybuty usługi ATA SMART

Poniższy wykres zawiera listę niektórych atrybutów SMART i typowe znaczenie ich nieprzetworzonych wartości. Znormalizowane wartości są zwykle odwzorowywane w taki sposób, że wyższe wartości są lepsze (wyjątki obejmują temperaturę dysku, liczbę cykli ładowania/rozładowywania głowicy), ale wyższe nieprzetworzone wartości atrybutów mogą być lepsze lub gorsze w zależności od atrybutu i producenta. Na przykład znormalizowana wartość atrybutu „Reallocated Sectors Count” zmniejsza się wraz ze wzrostem liczby realokowanych sektorów . W tym przypadku atrybut jest surowy wartość często wskazuje rzeczywistą liczbę sektorów, które zostały ponownie przydzielone, chociaż dostawcy nie są w żaden sposób zobowiązani do przestrzegania tej konwencji.

Ponieważ producenci niekoniecznie zgadzają się co do precyzyjnych definicji atrybutów i jednostek miary, poniższa lista atrybutów jest jedynie ogólną wskazówką.

Napędy nie obsługują wszystkich kodów atrybutów (czasami w tabelach określanych skrótem „ID” od „identyfikatora”). Niektóre kody są specyficzne dla określonych typów dysków (talerz magnetyczny, flash, SSD). Napędy mogą używać różnych kodów dla tego samego parametru, np. patrz kody 193 i 225.

Legenda
ID
193 0xC1

Kod atrybutu w notacji dziesiętnej i szesnastkowej
Ideał
Higher
Wysoki
Wyższa wartość surowa jest lepsza
Niski
Lower
Niższa wartość surowa jest lepsza

! (Krytyczny)
Critical

Oznacza atrybut krytyczny . Określone wartości mogą przewidywać awarię dysku
ID Nazwa atrybutu Ideał ! Opis

01 0x01
Odczyt współczynnika błędów
Niski
Lower

Critical

(Wartość surowa specyficzna dla dostawcy.) Przechowuje dane związane z częstością sprzętowych błędów odczytu, które wystąpiły podczas odczytu danych z powierzchni dysku. Surowa wartość ma różną strukturę dla różnych dostawców i często nie ma znaczenia jako liczba dziesiętna. W przypadku niektórych dysków liczba ta może wzrosnąć podczas normalnej pracy, niekoniecznie oznaczając błędy.

02 0x02
Wydajność przepustowości
Higher
Wysoki
Ogólna (ogólna) przepustowość dysku twardego. Jeśli wartość tego atrybutu maleje, istnieje duże prawdopodobieństwo, że wystąpił problem z dyskiem.

03 0x03
Czas rozkręcania
Niski
Lower
Średni czas rozkręcenia wrzeciona (od zera do pełnej sprawności [milisekundy]).

04 0x04
Licznik start/stop Licznik cykli start/stop wrzeciona. Wrzeciono włącza się, a co za tym idzie, zliczanie jest zwiększane, zarówno wtedy, gdy dysk twardy jest włączany po wcześniejszym całkowitym wyłączeniu (odłączeniu od zasilania), jak i wtedy, gdy dysk twardy powraca ze stanu uśpienia.

05 0x05
Liczba realokowanych sektorów
Niski
Lower

Critical
Liczba realokowanych sektorów. Surowa wartość reprezentuje liczbę uszkodzonych sektorów , które zostały znalezione i ponownie zmapowane. Zatem im wyższa wartość atrybutu, tym więcej sektorów dysk musiał ponownie przydzielić. Ta wartość jest używana głównie jako miara oczekiwanej żywotności dysku; dysk, który w ogóle miał jakiekolwiek realokacje, jest znacznie bardziej narażony na awarię w najbliższych miesiącach.

06 0x06
Przeczytaj margines kanału Margines kanału podczas odczytu danych. Funkcja tego atrybutu nie jest określona.

07 0x07
Szukaj współczynnika błędów Zmienia się (Wartość surowa specyficzna dla dostawcy.) Współczynnik błędów wyszukiwania głowic magnetycznych. Jeśli wystąpi częściowa awaria mechanicznego systemu pozycjonowania, pojawią się błędy wyszukiwania. Taka awaria może być spowodowana wieloma czynnikami, takimi jak uszkodzenie serwomechanizmu lub termiczne poszerzenie dysku twardego. Surowa wartość ma inną strukturę dla różnych dostawców i często nie ma znaczenia jako liczba dziesiętna. W przypadku niektórych dysków liczba ta może wzrosnąć podczas normalnej pracy, niekoniecznie oznaczając błędy.

08 0x08
Szukaj wydajności czasu
Higher
Wysoki
Średnia wydajność operacji wyszukiwania głowic magnetycznych. Jeśli ten atrybut maleje, jest to oznaką problemów w podsystemie mechanicznym.

09 0x09
Godziny włączenia Liczba godzin w stanie włączenia. Surowa wartość tego atrybutu pokazuje całkowitą liczbę godzin (lub minut lub sekund, w zależności od producenta) w stanie włączenia zasilania.

„Domyślnie całkowity oczekiwany czas życia dysku twardego w idealnym stanie jest zdefiniowany jako 5 lat (działający codziennie w dzień iw nocy we wszystkie dni). Odpowiada to 1825 dniom w trybie 24/7 lub 43800 godzinom”.

Na niektórych dyskach sprzed 2005 r. ta surowa wartość może zmieniać się nieregularnie i/lub „zawijać” (okresowo resetować do zera).


10 0x0A
Liczba ponownych obrotów
Niski
Lower

Critical
Liczba ponownych prób startu obrotowego. Ten atrybut przechowuje całkowitą liczbę prób wirowania, aby osiągnąć pełną prędkość operacyjną (pod warunkiem, że pierwsza próba zakończyła się niepowodzeniem). Wzrost wartości tego atrybutu świadczy o problemach w podsystemie mechanicznym dysku twardego.

11 0x0B
ponownych prób kalibracji lub liczba ponownych prób kalibracji
Niski
Lower
Atrybut ten wskazuje liczbę żądaną ponownej kalibracji (pod warunkiem, że pierwsza próba zakończyła się niepowodzeniem). Wzrost wartości tego atrybutu świadczy o problemach w podsystemie mechanicznym dysku twardego.

12 0x0C
Liczba cykli zasilania Ten atrybut wskazuje liczbę pełnych cykli włączania/wyłączania dysku twardego.

13 0x0D
Wskaźnik błędów odczytu miękkiego
Niski
Lower
Nieskorygowane błędy odczytu zgłoszone do systemu operacyjnego.

22 0x16
Bieżący poziom helu
Higher
Wysoki
Specyficzne dla dysków He8 firmy HGST. Ta wartość mierzy zawartość helu wewnątrz dysku, charakterystycznego dla tego producenta. Jest to atrybut przed awarią, który uruchamia się, gdy dysk wykryje, że środowisko wewnętrzne jest niezgodne ze specyfikacją.

23 0x17
Niższy stan helu Specyficzne dla napędów MG07+ firmy Toshiba. Ta wartość mierzy niższy poziom helu wewnątrz dysku charakterystyczny dla tego producenta. Jest to atrybut przed awarią, który uruchamia się, gdy dysk wykryje, że środowisko wewnętrzne jest niezgodne ze specyfikacją.

24 0x18
Górna część z helem Specyficzne dla napędów MG07+ firmy Toshiba. Ta wartość mierzy górny poziom helu wewnątrz dysku charakterystycznego dla tego producenta. Jest to atrybut przed awarią, który uruchamia się, gdy dysk wykryje, że środowisko wewnętrzne jest niezgodne ze specyfikacją.

170 0xAA
Dostępne zarezerwowane miejsce Patrz atrybut E8.

171 0xAB
Liczba błędów programu SSD (Kingston) Całkowita liczba niepowodzeń działania programu flash od momentu zainstalowania dysku. Identyczny z atrybutem 181.

172 0xAC
Liczba nieudanych wymazań SSD (Kingston) Zlicza liczbę błędów wymazywania pamięci flash. Ten atrybut zwraca łączną liczbę niepowodzeń operacji wymazywania pamięci Flash od czasu wdrożenia dysku. Ten atrybut jest identyczny z atrybutem 182.

173 0xAD
Liczba poziomów zużycia SSD Zlicza maksymalną liczbę najgorszych wymazań w dowolnym bloku.

174 0xAE
Nieoczekiwana liczba utraty zasilania Znany również jako „liczba wycofań po wyłączeniu zasilania” zgodnie z konwencjonalną terminologią dysków twardych. Wartość surowa podaje liczbę nieczystych wyłączeń, skumulowaną w całym okresie eksploatacji dysku SSD, gdzie „nieczyste wyłączenie” to odłączenie zasilania bez STANDBY IMMEDIATE jako ostatniego polecenia (niezależnie od aktywności PLI wykorzystującej moc kondensatora). Znormalizowana wartość to zawsze 100.

175 0xAF
Awaria zabezpieczenia przed utratą zasilania Ostatni wynik testu w mikrosekundach do nasadki rozładowania, nasyconej przy maksymalnej wartości. Rejestruje również minuty od ostatniego testu i całkowitą liczbę testów. Surowa wartość zawiera następujące dane:
  • Bajty 0-1: Wynik ostatniego testu w mikrosekundach do rozładowania nasadki, nasycenie przy maksymalnej wartości. Oczekiwany wynik testu mieści się w zakresie 25 <= wynik <= 5000000, niższy oznacza określony kod błędu.
  • Bajty 2-3: minuty od ostatniego testu, nasycenie przy maksymalnej wartości.
  • Bajty 4-5: Liczba testów w całym okresie życia, nie zwiększana po wyłączeniu zasilania, nasyca się przy maksymalnej wartości.

Znormalizowana wartość jest ustawiona na 1 w przypadku niepowodzenia testu lub 11, jeśli kondensator był testowany w warunkach nadmiernej temperatury, w przeciwnym razie 100.


176 0xB0
Usuń liczbę niepowodzeń Parametr SMART wskazuje liczbę nieudanych poleceń wymazywania pamięci flash.

177 0xB1
Zużycie Delta zasięgu Delta między najbardziej i najmniej zużytymi blokami Flash. Opisuje, jak dobre/złe jest wyrównywanie zużycia dysku SSD w bardziej techniczny sposób.

178 0xB2
Wykorzystana zarezerwowana liczba bloków Atrybut „Przed awarią” używany przynajmniej w urządzeniach Samsung.

179 0xB3
Całkowita liczba wykorzystanych zarezerwowanych bloków Atrybut „Przed awarią” używany przynajmniej w urządzeniach Samsung.

180 0xB4
Łączna liczba niewykorzystanych zarezerwowanych bloków Atrybut „Przed awarią” używany przynajmniej w urządzeniach HP.

181 0xB5
Łączna liczba niepowodzeń programu lub liczba dostępów niezgodnych z 4K
Niski
Lower

Całkowita liczba niepowodzeń działania programu Flash od czasu wdrożenia dysku. Liczba dostępów do danych użytkownika (zarówno odczytów, jak i zapisów), w przypadku których LBA nie są wyrównane do 4 KiB (LBA % 8 != 0) lub gdy rozmiar nie jest równy modułowi 4 KiB (liczba bloków != 8), przy założeniu logicznego rozmiaru bloku (LBS) = 512 b.

182 0xB6
Usuń liczbę niepowodzeń Atrybut „Przed awarią” używany przynajmniej w urządzeniach Samsung.

183 0xB7
SATA Downshift Error Count lub Runtime Bad Block
Niski
Lower
Atrybut Western Digital, Samsung lub Seagate: albo liczba redukcji prędkości łącza (np. z 6 Gbit/s do 3 Gbit/s), albo całkowita liczba bloków danych z wykrytymi, niemożliwymi do naprawienia błędami napotkanymi podczas normalnej pracy. Chociaż degradacja tego parametru może wskazywać na starzenie się napędu i/lub potencjalne problemy elektromechaniczne, nie wskazuje bezpośrednio na zbliżającą się awarię napędu.

184 0xB8
Błąd typu end-to-end / IOEDC
Niski
Lower

Critical
Ten atrybut jest częścią technologii SMART IV firmy Hewlett-Packard , a także częścią schematów wykrywania i korygowania błędów IO innych dostawców i zawiera liczbę błędów parzystości, które występują w ścieżce danych do nośnika przez dysk pamięć podręczna RAM.

185 0xB9
Stabilność głowy Atrybut Western Digital.

186 0xBA
Wykrywanie wibracji indukowanych Atrybut Western Digital.

187 0xBB
Zgłoszone błędy, których nie można naprawić
Niski
Lower

Critical
Liczba błędów, których nie można było naprawić przy użyciu sprzętowego ECC (patrz atrybut 195).

188 0xBC
Limit czasu polecenia
Niski
Lower

Critical
Liczba przerwanych operacji z powodu przekroczenia limitu czasu dysku twardego. Normalnie wartość tego atrybutu powinna być równa zeru.

189 0xBD
High Fly pisze
Niski
Lower
Producenci dysków twardych wdrażają czujnik wysokości lotu , który próbuje zapewnić dodatkowe zabezpieczenia operacji zapisu, wykrywając, kiedy głowica zapisująca wylatuje poza swój normalny zakres działania. W przypadku napotkania niebezpiecznej wysokości lotu proces zapisu jest zatrzymywany, a informacje są ponownie zapisywane lub przenoszone do bezpiecznego obszaru dysku twardego. Ten atrybut wskazuje liczbę tych błędów wykrytych w okresie eksploatacji dysku.

Ta funkcja jest zaimplementowana w większości nowoczesnych dysków Seagate i niektórych dyskach Western Digital, począwszy od dysków twardych WD Enterprise WDE18300 i WDE9180 Ultra2 SCSI, i będzie dostępna we wszystkich przyszłych produktach WD Enterprise.


190 0xBE
Różnica temperatur lub temperatura przepływu powietrza Zmienia się Wartość jest równa (100-temp. °C), co pozwala producentowi na ustawienie minimalnego progu odpowiadającego maksymalnej temperaturze. Jest to również zgodne z konwencją, że 100 jest wartością w najlepszym przypadku, a niższe wartości są niepożądane. Jednak niektóre starsze dyski mogą zamiast tego zgłaszać surową temperaturę (identyczną z 0xC2) lub temperaturę minus 50 tutaj.

191 0xBF
Współczynnik błędów G-sense
Niski
Lower
Liczba błędów wynikających z zewnętrznych wstrząsów i wibracji.

192 0xC0
Liczba wycofań po wyłączeniu zasilania , liczba cykli wycofania awaryjnego (Fujitsu) lub liczba niebezpiecznych wyłączeń
Niski
Lower
Liczba cykli wyłączenia lub wycofania awaryjnego.

193 0xC1
Liczba cykli ładowania lub liczba cykli ładowania/rozładowania (Fujitsu)
Niski
Lower
Liczba cykli załadunku/rozładunku do pozycji strefy lądowania głowicy. Niektóre dyski zamiast tego używają 225 (0xE1) do licznika cykli ładowania.

Western Digital ocenia swoje dyski VelociRaptor na 600 000 cykli ładowania/rozładowywania, a dyski WD Green na 300 000 cykli; te ostatnie są przeznaczone do częstego rozładowywania głowic w celu oszczędzania energii. Z drugiej strony, WD3000GLFS (dysk do komputerów stacjonarnych) jest przeznaczony tylko na 50 000 cykli ładowania/rozładowywania.

Niektóre dyski do laptopów i dyski do komputerów stacjonarnych z „zieloną energią” są zaprogramowane tak, aby rozładowywać głowice, gdy przez krótki czas nie było żadnej aktywności, aby oszczędzać energię. Systemy operacyjne często uzyskują dostęp do systemu plików kilka razy na minutę w tle, powodując 100 lub więcej cykli ładowania na godzinę, jeśli głowice się rozładują: wskaźnik cyklu ładowania może zostać przekroczony w mniej niż rok. Istnieją programy dla większości systemów operacyjnych, które wyłączają zaawansowanego zarządzania energią (APM) i automatycznego zarządzania akustyką (AAM), powodując częste cykle ładowania.


194 0xC2
Temperatura lub Temperatura Celsjusza
Niski
Lower
Wskazuje temperaturę urządzenia, jeśli zamontowany jest odpowiedni czujnik. Najniższy bajt wartości surowej zawiera dokładną wartość temperatury (w stopniach Celsjusza).

195 0xC3
Odzyskano sprzętowe ECC Zmienia się (Wartość surowa specyficzna dla dostawcy). Wartość surowa ma różną strukturę dla różnych dostawców i często nie ma znaczenia jako liczba dziesiętna. W przypadku niektórych dysków liczba ta może wzrosnąć podczas normalnej pracy, niekoniecznie oznaczając błędy.

196 0xC4
Liczba zdarzeń realokacji
Niski
Lower

Critical
Liczba operacji ponownego mapowania. Surowa wartość tego atrybutu pokazuje całkowitą liczbę prób przesłania danych z ponownie przydzielonych sektorów do obszaru zapasowego. Liczone są zarówno udane, jak i nieudane próby.

197 0xC5
Bieżąca liczba sektorów oczekujących
Niski
Lower

Critical
Liczba „niestabilnych” sektorów (oczekujących na ponowne mapowanie z powodu nieodwracalnych błędów odczytu). Jeśli niestabilny sektor zostanie następnie pomyślnie odczytany, sektor jest ponownie mapowany, a wartość ta jest zmniejszana. Błędy odczytu w sektorze nie spowodują natychmiastowego ponownego mapowania sektora (ponieważ nie można odczytać prawidłowej wartości, więc wartość do ponownego mapowania nie jest znana, a także może stać się czytelna później); zamiast tego oprogramowanie układowe dysku zapamiętuje, że sektor musi zostać ponownie zmapowany, i zmapuje go ponownie przy następnym pomyślnym odczytaniu.

Jednak niektóre dyski nie będą natychmiast ponownie mapować takich sektorów po pomyślnym odczytaniu; zamiast tego dysk najpierw podejmie próbę zapisu do sektora problematycznego, a jeśli operacja zapisu zakończy się pomyślnie, sektor zostanie oznaczony jako dobry (w tym przypadku „liczba zdarzeń realokacji” (0xC4) nie zostanie zwiększona). Jest to poważna wada, ponieważ jeśli taki dysk zawiera marginalne sektory, które konsekwentnie zawodzą dopiero po pewnym czasie od udanej operacji zapisu, to dysk nigdy nie zmapuje tych problematycznych sektorów.


198 0xC6
(Offline) Niemożliwa do skorygowania liczba sektorów
Niski
Lower

Critical
Całkowita liczba nienaprawialnych błędów podczas odczytu/zapisu sektora. Wzrost wartości tego atrybutu świadczy o defektach powierzchni dysku i/lub problemach w podsystemie mechanicznym.

199 0xC7
Licznik błędów CRC UltraDMA
Niski
Lower
Liczba błędów w przesyłaniu danych przez kabel interfejsu określona przez ICRC (Interface Cyclic Redundancy Check).

200 0xC8
Współczynnik błędów w wielu strefach
Niski
Lower
Liczba błędów znalezionych podczas zapisywania sektora. Im wyższa wartość, tym gorszy stan mechaniczny dysku.

200 0xC8
Współczynnik błędów zapisu (Fujitsu)
Niski
Lower
Całkowita liczba błędów podczas zapisywania sektora.

201 0xC9

współczynnik błędów miękkiego odczytu lub licznik TA
Niski
Lower

Critical
Liczba wskazuje liczbę nienaprawialnych błędów odczytu oprogramowania.

202 0xCA

Błędy znacznika adresu danych lub zwiększony licznik TA
Niski
Lower
Liczba błędów znacznika adresu danych (lub specyficznych dla dostawcy).

203 0xCB
Brak Anuluj
Niski
Lower
Liczba błędów spowodowanych błędną sumą kontrolną podczas korekcji błędów.

204 0xCC
Miękka korekcja ECC
Niski
Lower
Liczba błędów poprawionych przez wewnętrzne oprogramowanie do korekcji błędów.

205 0xCD
Współczynnik chropowatości termicznej
Niski
Lower
Liczba błędów spowodowanych wysoką temperaturą.

206 0xCE
Wysokość lotu Wysokość głowic nad powierzchnią dysku. Jeśli jest zbyt nisko, bardziej prawdopodobne jest zderzenie głowy; jeśli jest zbyt wysoki, bardziej prawdopodobne są błędy odczytu/zapisu.

207 0xCF
Zakręć wysokim prądem
Niski
Lower
Ilość prądu udarowego użytego do rozkręcenia napędu.

208 0xD0
Zakręć Buzzem Liczba procedur brzęczenia potrzebnych do przyspieszenia dysku z powodu niewystarczającej mocy.

209 0xD1
Wydajność wyszukiwania w trybie offline Dysk sprawdza wydajność podczas wewnętrznych testów.

210 0xD2
Wibracje podczas zapisu Znaleziono w dyskach Maxtor 6B200M0 200 GB i Maxtor 2R015H1 15 GB.

211 0xD3
Wibracje podczas zapisu Nagranie wibracji napotkanych podczas operacji zapisu.

212 0xD4
Wstrząs podczas pisania Nagranie wstrząsu napotkanego podczas operacji zapisu.

220 0xDC
Przesunięcie dysku
Niski
Lower
Odległość, o jaką dysk przesunął się względem wrzeciona (zwykle z powodu wstrząsu lub temperatury). Jednostka miary jest nieznana.

221 0xDD
Wskaźnik błędów G-Sense
Niski
Lower
Liczba błędów wynikających z zewnętrznych wstrząsów i wibracji. Częściej zgłaszane w 0xBF.

222 0xDE
Załadowane godziny Czas pracy pod obciążeniem danymi (ruch twornika głowicy magnetycznej).

223 0xDF
Załaduj/rozładuj licznik ponownych prób Liczba zmian pozycji głowy.

224 0xE0
Tarcie obciążenia
Niski
Lower
Opór spowodowany tarciem części mechanicznych podczas pracy.

225 0xE1
Licznik cykli załadunku/rozładunku
Niski
Lower
Całkowita liczba cykli ładowania Niektóre napędy zamiast tego używają 193 (0xC1) dla liczby cykli ładowania. Zobacz Opis dla 193 dla znaczenia tej liczby.

226 0xE2
Załaduj w czasie Całkowity czas ładowania na siłownik głowicy magnetycznej (czas nie spędzony na parkingu).

227 0xE3
Licznik wzmocnienia momentu obrotowego
Niski
Lower
Liczba prób kompensacji zmian prędkości talerza.

228 0xE4
Cykl wycofania po wyłączeniu zasilania
Niski
Lower
Liczba cykli wyłączania, które są zliczane, gdy wystąpi „zdarzenie wycofania” i głowice zostaną zdjęte z nośnika, na przykład gdy maszyna jest wyłączona, uśpiona lub bezczynna.

230 0xE6
GMR Head Amplitude (magnetyczne dyski twarde), stan ochrony dysku (SSD) Amplituda „bicia” (powtarzające się ruchy głowy między operacjami).

W przypadku dysków półprzewodnikowych wskazuje, czy trajektoria użytkowania przekracza oczekiwaną krzywą żywotności


231 0xE7
Pozostały czas życia (SSD) lub temperatura Wskazuje przybliżony pozostały okres eksploatacji dysku SSD, pod względem liczby cykli programowania/kasowania lub dostępnych zarezerwowanych bloków. Znormalizowana wartość 100 oznacza nowy dysk, a wartość progowa 10 wskazuje na konieczność wymiany. Wartość 0 może oznaczać, że dysk działa w trybie tylko do odczytu, aby umożliwić odzyskiwanie danych.

Wcześniej (sprzed 2010 r.) sporadycznie używany do temperatury dysku (częściej zgłaszany jako 0xC2).


232 0xE8
Pozostała wytrzymałość lub dostępna zarezerwowana przestrzeń Liczba cykli fizycznego wymazywania wykonanych na dysku SSD jako procent maksymalnej liczby cykli fizycznego wymazywania, które dysk ma wytrzymać.

Dyski Intel SSD zgłaszają dostępną zarezerwowaną przestrzeń jako procent początkowej zarezerwowanej przestrzeni.


233 0xE9
Wskaźnik zużycia nośnika (SSD) lub godziny włączenia zasilania Dyski Intel SSD zgłaszają znormalizowaną wartość od 100, nowy dysk, do minimum 1. Zmniejsza się, podczas gdy cykle kasowania NAND rosną od 0 do maksymalnych cykli znamionowych.

Wcześniej (sprzed 2010 r.) okazjonalnie używane w godzinach włączenia zasilania (częściej zgłaszane w 0x09).


234 0xEA
Średnia liczba wymazań ORAZ maksymalna liczba wymazań Dekodowany jako: bajt 0-1-2 = średnia liczba wymazań (big endian) i bajt 3-4-5 = maksymalna liczba wymazań (big endian).

235 0xEB
Dobra liczba bloków ORAZ System (darmowy) Liczba bloków Dekodowane jako: bajt 0-1-2 = dobra liczba bloków (big endian) i bajt 3-4 = systemowa (wolna) liczba bloków.

240 0xF0
Head Flying Hours lub „ wskaźnik błędów transferu” (Fujitsu) Czas spędzony podczas pozycjonowania głowic napędowych. Niektóre dyski Fujitsu zgłaszają liczbę resetów łącza podczas przesyłania danych.

241 0xF1
Łączna liczba napisanych LBA Łączna liczba zapisanych LBA.

242 0xF2
Łączna liczba odczytanych adresów LBA
Łączna liczba odczytanych adresów LBA. Niektóre narzędzia SMART zgłaszają liczbę ujemną dla surowej wartości, ponieważ w rzeczywistości ma ona 48 bitów zamiast 32.

243 0xF3
Łączna liczba rozszerzonych zapisów LBA Górne 5 bajtów z 12-bajtowej całkowitej liczby LBA zapisanych w urządzeniu. Niższa wartość 7-bajtowa znajduje się w atrybucie 0xF1.

244 0xF4
Łączna liczba rozszerzonych odczytów LBA Górne 5 bajtów z 12-bajtowej całkowitej liczby LBA odczytanych z urządzenia. Niższa wartość 7-bajtowa znajduje się w atrybucie 0xF2.

249 0xF9
Zapisy NAND (1 GiB) Całkowita liczba zapisów NAND. Wartość surowa podaje liczbę zapisów do NAND w krokach co 1 GB.

250 0xFA
Częstotliwość ponownych prób odczytu błędów
Niski
Lower
Liczba błędów podczas odczytu z dysku.

251 0xFB
Minimalne pozostałe części zamienne Atrybut Minimum Spares Remaining wskazuje liczbę pozostałych bloków zapasowych jako procent całkowitej liczby dostępnych bloków zapasowych.

252 0xFC
Nowo dodany zły blok Flash Atrybut Nowo dodany uszkodzony blok pamięci flash wskazuje całkowitą liczbę uszkodzonych bloków pamięci flash wykrytych przez dysk od czasu jego pierwszej inicjalizacji podczas produkcji.

254 0xFE
Bezpłatna ochrona przed upadkiem
Niski
Lower
Wykryto liczbę „wydarzeń swobodnego spadania”.

Znane statystyki urządzeń ATA

Strona Zrównoważyć Opis
0x01 0x08 Dożywotnie resetowanie po włączeniu zasilania
0x01 0x10 Godziny włączenia
0x01 0x18 Zapisane sektory logiczne
0x01 0x28 Odczyt sektorów logicznych
0x05 0x08 Obecna temperatura
0x05 0x20 Najwyższa temperatura
0x05 0x28 Najniższa temperatura
0x05 0x58 Określona maksymalna temperatura robocza
0x05 0x68 Określona minimalna temperatura robocza
0x07 0x08 Wskaźnik procentowego zużycia wytrzymałości

Warunek przekroczenia progu

Warunek przekroczenia progu (TEC) to szacowana data, kiedy krytyczny atrybut statystyki dysku osiągnie wartość progową. Gdy oprogramowanie Drive Health zgłasza „najbliższy TEC”, należy to traktować jako „datę awarii”. Czasami data nie jest podana i można oczekiwać, że dysk będzie działał bez błędów.

Aby przewidzieć datę, dysk śledzi szybkość zmian atrybutu. Należy pamiętać, że daty TEC są tylko szacunkami; dyski twarde mogą ulec awarii znacznie wcześniej lub znacznie później niż data TEC.

Atrybuty NVMe SMART

Specyfikacja NVMe zdefiniowała ujednolicone atrybuty SMART dla różnych producentów dysków.

Znane atrybuty NVMe SMART

ID Nazwa atrybutu Opis

01 0x01
Krytyczne ostrzeżenie





Krytyczne ostrzeżenia dotyczące stanu sterownika. Definicja bitu: Bit 00, wartość 1: Dostępny zapas jest poniżej progu. Bit 01, wartość 1: Temperatura przekracza wartość progową. Bit 02, wartość 1: Pogorszona niezawodność napędu. Bit 03, wartość 1: Przemiennik jest w trybie tylko do odczytu.

02 0x02
Temperatura złożona Temperatura w stopniach Kelvina reprezentująca aktualną złożoną temperaturę kontrolera i jego przestrzeni nazw.

03 0x03
Dostępna część zamienna Procent dostępnego zapasu.

04 0x04
Dostępny próg rezerwowy Procent dostępnego wolnego progu.

05 0x05
Wykorzystany procent Procent używanego okresu eksploatacji dysku.

06 0x06
Odczyt jednostek danych Liczba 512-bajtowych jednostek danych, które host odczytał ze sterownika. Ta wartość nie obejmuje metadanych. Ta wartość jest podawana w tysiącach (tj. wartość 1 odpowiada 1000 zapisanych jednostek po 512 bajtów) i jest zaokrąglana w górę.

07 0x07
Zapisane jednostki danych Liczba 512-bajtowych jednostek danych zapisanych przez hosta w kontrolerze. Ta wartość nie obejmuje metadanych. Ta wartość jest podawana w tysiącach (tj. wartość 1 odpowiada 1000 zapisanych jednostek po 512 bajtów) i jest zaokrąglana w górę.

08 0x08
Polecenia odczytu hosta Liczba poleceń odczytu wykonanych przez kontroler.

09 0x09
Polecenia zapisu hosta Liczba poleceń zapisu wykonanych przez kontroler.

10 0x0A
Czas zajętości kontrolera Czas, przez jaki kontroler jest zajęty poleceniami wejścia/wyjścia.

11 0x0B
Cykle zasilania Liczba cykli zasilania.

12 0x0C
Godziny włączenia Liczba godzin włączonego zasilania, z wyłączeniem czasu włączenia w stanie zasilania nieoperacyjnego.

13 0x0D
Niebezpieczne wyłączenia Liczba niebezpiecznych wyłączeń. Zwiększa się, gdy powiadomienie o wyłączeniu nie zostanie odebrane przed utratą zasilania.

14 0x0E
Błędy mediów Liczba przypadków, w których kontroler wykrył nieodzyskany błąd integralności danych, w tym niemożliwy do naprawienia błąd ECC, błąd sumy kontrolnej CRC lub niezgodność tagów LBA.

15 0x0F
Liczba wpisów dziennika informacji o błędach Liczba wpisów dziennika informacji o błędach w okresie eksploatacji kontrolera.

Autotesty

Dyski SMART mogą oferować szereg autotestów:

Krótki
Sprawdza działanie elektryczne i mechaniczne, a także wydajność odczytu dysku. Testy elektryczne mogą obejmować test bufora pamięci RAM, test obwodów odczytu/zapisu lub test elementów głowicy odczytu/zapisu. Test mechaniczny obejmuje wyszukiwanie i serwomechanizm na ścieżkach danych. Skanuje małe części powierzchni dysku (obszar zależy od dostawcy, a test jest ograniczony czasowo). Sprawdza listę oczekujących sektorów, które mogły zawierać błędy odczytu, i zwykle zajmuje to mniej niż dwie minuty.
Długi/rozszerzony
Dłuższa i dokładniejsza wersja krótkiego autotestu, skanująca całą powierzchnię dysku bez ograniczeń czasowych. Ten test zwykle trwa kilka godzin, w zależności od szybkości odczytu/zapisu dysku i jego rozmiaru.
Transport
Przeznaczony do szybkiego sprawdzenia uszkodzeń powstałych podczas transportu urządzenia od producenta dysku do producenta komputera. Dostępne tylko na dyskach ATA i zwykle zajmuje to kilka minut.
Selektywne
Niektóre napędy umożliwiają selektywne autotesty tylko części powierzchni.

Dzienniki autotestu dysków SCSI i ATA różnią się nieco. Możliwe jest, że długi test zakończy się pomyślnie, nawet jeśli krótki test zakończy się niepowodzeniem.

Dziennik autotestu dysku może zawierać do 21 wpisów tylko do odczytu. Po zapełnieniu dziennika stare wpisy są usuwane.

Dyski NVMe nie obsługują autotestów.

Zobacz też

Dalsza lektura

Linki zewnętrzne