Technika analizy i raportowania samooceny

Self-Monitoring, Analysis and Reporting Technology ( SMART , często zapisywany jako SMART ) to system monitorowania zawarty w komputerowych dyskach twardych (HDD) i dyskach półprzewodnikowych (SSD). Jego podstawową funkcją jest wykrywanie i zgłaszanie różnych wskaźników niezawodności dysku w celu przewidywania zbliżających się awarii sprzętu.

Gdy dane SMART wskazują na możliwą nieuchronną awarię dysku, oprogramowanie działające w systemie hosta może powiadomić użytkownika, aby można było podjąć działania zapobiegawcze w celu zapobieżenia utracie danych, wymienić uszkodzony dysk i zachować integralność danych.

Tło

Dysk twardy i inne dyski podlegają awariom (patrz awarie dysku twardego ), które można podzielić na dwie podstawowe klasy:

Przewidywalne awarie wynikające z powolnych procesów, takich jak zużycie mechaniczne i stopniowa degradacja powierzchni magazynowych. Monitorowanie może określić, kiedy takie awarie stają się bardziej prawdopodobne.
Nieprzewidywalne awarie , które występują bez ostrzeżenia z powodu czegokolwiek, od uszkodzenia elementów elektronicznych po nagłą awarię mechaniczną, w tym awarie związane z niewłaściwą obsługą.

Awarie mechaniczne stanowią około 60% wszystkich awarii napędów. Podczas gdy ewentualna awaria może być katastrofalna, większość awarii mechanicznych wynika ze stopniowego zużycia i zwykle istnieją pewne oznaki, że awaria jest nieuchronna. Mogą to być zwiększone wydzielanie ciepła, zwiększony poziom hałasu, problemy z odczytem i zapisem danych, czy wzrost liczby uszkodzonych sektorów dysku.

Strona PCTechGuide na SMART (2003) komentuje, że technologia przeszła przez trzy fazy:

W swoim pierwotnym wcieleniu SMART przewidywał awarie, monitorując niektóre działania dysku twardego online.

Kolejna wersja standardu ulepszyła przewidywanie awarii, dodając automatyczne skanowanie odczytu offline w celu monitorowania dodatkowych operacji. Atrybuty online są zawsze aktualizowane, podczas gdy atrybuty offline są aktualizowane, gdy dysk twardy nie działa. Jeśli zachodzi natychmiastowa potrzeba aktualizacji atrybutów offline, dysk twardy zwalnia, a atrybuty offline są aktualizowane. Najnowsza technologia „SMART” nie tylko monitoruje aktywność dysków twardych, ale dodatkowo zapobiega awariom, próbując wykrywać i naprawiać błędy sektorów.

Ponadto, podczas gdy wcześniejsze wersje technologii monitorowały aktywność dysku twardego tylko pod kątem danych pobieranych przez system operacyjny, najnowsza wersja SMART testuje wszystkie dane i wszystkie sektory dysku za pomocą „zbierania danych w trybie offline”, aby potwierdzić stan dysku podczas okresy bezczynności.

Dokładność

Badanie terenowe w Google obejmujące ponad 100 000 dysków klasy konsumenckiej od grudnia 2005 do sierpnia 2006 wykazało korelacje między niektórymi informacjami SMART a rocznymi wskaźnikami awaryjności:

W ciągu 60 dni od pierwszego nienaprawialnego błędu na dysku ( atrybut SMART 0xC6 lub 198) wykrytego w wyniku skanowania w trybie offline, prawdopodobieństwo awarii dysku było średnio 39 razy większe niż w przypadku podobnego dysku, dla którego nie wystąpił taki błąd wystąpił.
Pierwsze błędy w realokacjach, realokacjach offline ( atrybuty SMART 0xC4 i 0x05 lub 196 i 5) oraz rachunkach próbnych ( atrybut SMART 0xC5 lub 197) były również silnie skorelowane z wyższym prawdopodobieństwem niepowodzenia.
I odwrotnie, stwierdzono niewielką korelację dla podwyższonej temperatury i brak korelacji dla poziomu użytkowania. Jednak badanie wykazało, że duża część (56%) uszkodzonych dysków uległa awarii bez zarejestrowania jakiejkolwiek liczby w „czterech silnych ostrzeżeniach SMART” zidentyfikowanych jako błędy skanowania, liczba realokacji, realokacja offline i liczba okresu próbnego.
Co więcej, 36% uszkodzonych dysków nie zarejestrowało żadnego błędu SMART, z wyjątkiem temperatury, co oznacza, że same dane SMART miały ograniczoną przydatność w przewidywaniu awarii.

Historia i poprzednicy

Wczesna technologia monitorowania dysków twardych została wprowadzona przez IBM w 1992 roku w IBM 9337 Disk Arrays dla serwerów AS/400 korzystających z dysków IBM 0662 SCSI-2. Później nazwano ją Predictive Failure Analysis (PFA). Mierzono kilka kluczowych parametrów stanu urządzenia i oceniano je w oprogramowaniu układowym dysku. Komunikacja między jednostką fizyczną a oprogramowaniem monitorującym była ograniczona do wyniku binarnego: albo „urządzenie jest w porządku”, albo „dysk prawdopodobnie wkrótce ulegnie awarii”.

Później inny wariant, który został nazwany IntelliSafe, został stworzony przez producenta komputerów Compaq i producentów dysków Seagate , Quantum i Conner . Napędy dysków mierzyłyby „parametry kondycji” dysku, a wartości byłyby przesyłane do systemu operacyjnego i oprogramowania monitorującego przestrzeń użytkownika. Każdy producent dysków miał swobodę decydowania, które parametry mają być uwzględniane w monitorowaniu i jakie powinny być ich wartości progowe. Ujednolicenie odbywało się na poziomie protokołu z hostem.

Firma Compaq przedłożyła IntelliSafe komitetowi Small Form Factor (SFF) w celu standaryzacji na początku 1995 r. Był wspierany przez IBM, partnerów rozwojowych firmy Compaq, Seagate, Quantum i Conner, oraz przez firmę Western Digital , która nie miała systemu przewidywania awarii na początku 1995 r. czas. Komitet wybrał podejście IntelliSafe, ponieważ zapewniało ono większą elastyczność. Compaq umieścił IntelliSafe w domenie publicznej 12 maja 1995 r. Powstały wspólnie opracowany standard został nazwany SMART.

Ten standard SFF opisywał protokół komunikacyjny dla hosta ATA do używania i kontrolowania monitorowania i analizy na dysku twardym, ale nie określał żadnych konkretnych metryk ani metod analizy. Później zaczęto rozumieć, że „SMART” (choć bez żadnej formalnej specyfikacji) odnosi się do różnych konkretnych metryk i metod oraz ma zastosowanie do protokołów niezwiązanych z ATA do komunikacji tego samego rodzaju rzeczy.

Podane informacje

mSATA SSD z kontrolerem SandForce SF-2281 (Intel 525 mSATA SSD)

Dokumentacja techniczna SMART jest zgodna ze standardem AT Attachment (ATA). Wprowadzony po raz pierwszy w 1994 roku standard ATA przeszedł wiele zmian. Niektóre części oryginalnej specyfikacji SMART opracowanej przez komitet Small Form Factor (SFF). zostały dodane do ATA-3, opublikowanego w 1997 r. W 1998 r. ATA-4 zrezygnował z wymogu utrzymywania przez dyski wewnętrznej tabeli atrybutów i zamiast tego wymagał tylko zwracania wartości „OK” lub „NOT OK”. Producenci zachowali jednak możliwość odzyskania wartości atrybutów. Najnowszy standard ATA, ATA-8, został opublikowany w 2004 roku. Był poddawany regularnym modyfikacjom, ostatnia miała miejsce w 2011 roku. Standaryzacja podobnych funkcji SCSI jest rzadsza i nie jest tak nazywana w standardach, chociaż zarówno dostawcy, jak i konsumenci zapoznaj się również z tymi podobnymi funkcjami w SMART.

Najbardziej podstawową informacją dostarczaną przez SMART jest status SMART. Podaje tylko dwie wartości: „próg nie został przekroczony” i „próg został przekroczony”. Często są one przedstawiane odpowiednio jako „dysk OK” lub „awaria dysku”. Wartość „przekroczono próg” ma wskazywać, że istnieje stosunkowo duże prawdopodobieństwo, że dysk nie będzie w stanie spełnić swojej specyfikacji w przyszłości: to znaczy, że dysk „za chwilę ulegnie awarii”. Przewidywana awaria może być katastrofalna lub może być czymś tak subtelnym, jak brak możliwości zapisu do niektórych sektorów lub być może wolniejsza wydajność niż deklarowane przez producenta minimum.

Status SMART niekoniecznie wskazuje na przeszłą lub obecną niezawodność dysku. Jeśli dysk uległ już poważnej awarii, status SMART może być niedostępny. Alternatywnie, jeśli w przeszłości występowały problemy z dyskiem, ale czujniki już ich nie wykrywają, stan SMART może, w zależności od oprogramowania producenta, sugerować, że dysk jest teraz sprawny.

Brak możliwości odczytu niektórych sektorów nie zawsze oznacza, że dysk jest bliski awarii. Jednym ze sposobów tworzenia nieczytelnych sektorów, nawet gdy dysk działa zgodnie ze specyfikacją, jest nagła awaria zasilania podczas zapisywania dysku. Ponadto, nawet jeśli dysk fizyczny jest uszkodzony w jednym miejscu, tak że określony sektor jest nieczytelny, dysk może wykorzystać wolne miejsce do zastąpienia uszkodzonego obszaru, aby sektor mógł zostać nadpisany.

Więcej szczegółów na temat stanu dysku można uzyskać, sprawdzając atrybuty SMART. Atrybuty SMART zostały uwzględnione w niektórych wersjach roboczych standardu ATA, ale zostały usunięte, zanim standard stał się ostateczny. Znaczenie i interpretacja atrybutów różni się w zależności od producenta i czasami są uważane za tajemnicę handlową dla jednego lub drugiego producenta. Atrybuty są dokładniej omówione poniżej.

Napędy ze SMART mogą opcjonalnie przechowywać pewną liczbę „dzienników”. Dziennik błędów rejestruje informacje o ostatnich błędach, które dysk zgłosił do komputera hosta. Zbadanie tego dziennika może pomóc w ustaleniu, czy problemy z komputerem są związane z dyskiem, czy spowodowane przez coś innego (sygnatury czasowe dziennika błędów mogą „zawijać się” po 2 ³² ms = 49,71 dni)

Napęd obsługujący technologię SMART może opcjonalnie wdrożyć szereg procedur autotestu lub konserwacji, a wyniki testów są przechowywane w dzienniku autotestów . Procedury autotestu mogą być używane do wykrywania nieczytelnych sektorów na dysku, aby można je było przywrócić ze źródeł zapasowych (na przykład z innych dysków w macierzy RAID ) . Pomaga to zmniejszyć ryzyko poniesienia trwałej utraty danych.

Standardy i implementacja

Brak wspólnej interpretacji

Wiele płyt głównych wyświetla komunikat ostrzegawczy, gdy dysk zbliża się do awarii. Chociaż wśród większości głównych producentów dysków twardych istnieje standard branżowy, nadal występują problemy z powodu atrybutów celowo nieudokumentowanych opinii publicznej w celu rozróżnienia modeli między producentami. Z prawnego punktu widzenia termin „SMART” odnosi się tylko do metody sygnalizacji między czujnikami elektromechanicznymi wewnętrznego dysku a komputerem głównym. Z tego powodu specyfikacje SMART są całkowicie zależne od dostawcy i chociaż wiele z tych atrybutów zostało ustandaryzowanych między dostawcami dysków, inne pozostają specyficzne dla dostawcy. Implementacje SMART wciąż się różnią, aw niektórych przypadkach może brakować „wspólnych” lub oczekiwanych funkcji, takich jak czujnik temperatury lub zawierać tylko kilka wybranych atrybutów, jednocześnie umożliwiając producentowi reklamowanie produktu jako „zgodnego ze SMART”.

Widoczność dla systemów hosta

W zależności od typu używanego interfejsu, niektóre płyty główne obsługujące SMART i powiązane oprogramowanie mogą nie komunikować się z niektórymi napędami obsługującymi SMART. Na przykład kilka dysków zewnętrznych podłączonych przez USB i FireWire poprawnie przesyła dane SMART przez te interfejsy. Przy tak wielu sposobach podłączenia dysku twardego ( SCSI , Fibre Channel , ATA , SATA , SAS , SSA , NVMe itd.), trudno przewidzieć, czy raporty SMART będą poprawnie działać w danym systemie.

Nawet z dyskiem twardym i interfejsem zgodnym ze specyfikacją system operacyjny komputera może nie widzieć informacji SMART, ponieważ dysk i interfejs są zamknięte w niższej warstwie. Na przykład mogą być częścią podsystemu RAID, w którym kontroler RAID widzi dysk obsługujący SMART, ale komputer hosta widzi tylko wolumin logiczny wygenerowany przez kontroler RAID.

Na platformie Windows wiele programów zaprojektowanych do monitorowania i raportowania informacji SMART będzie działać tylko z kontem administratora .

System BIOS i system Windows ( Windows Vista i nowsze) mogą wykrywać stan SMART dysków twardych i dysków półprzewodnikowych oraz wyświetlać monit, jeśli stan SMART jest zły.

Atrybuty usługi ATA SMART

Każdy producent napędu definiuje zestaw atrybutów i ustala wartości progowe, powyżej których atrybuty nie powinny przechodzić podczas normalnej pracy. Każdy atrybut ma surową wartość , która może być wartością dziesiętną lub szesnastkową, której znaczenie zależy wyłącznie od producenta dysku (ale często odpowiada liczbie lub jednostce fizycznej, takiej jak stopnie Celsjusza lub sekundy), wartość znormalizowaną, która waha się od 1 do 253 (gdzie 1 oznacza najgorszy przypadek, a 253 najlepszy) i najgorszą wartość , co reprezentuje najniższą zarejestrowaną znormalizowaną wartość. Początkowa domyślna wartość atrybutów to 100, ale może się różnić w zależności od producenta.

Producenci, którzy wdrożyli co najmniej jeden atrybut SMART w różnych produktach, to między innymi Samsung , Seagate , IBM ( Hitachi ), Fujitsu , Maxtor , Toshiba , Intel , sTec, Inc. , Western Digital i ExcelStor Technology .

Znane atrybuty usługi ATA SMART

Poniższy wykres zawiera listę niektórych atrybutów SMART i typowe znaczenie ich nieprzetworzonych wartości. Znormalizowane wartości są zwykle odwzorowywane w taki sposób, że wyższe wartości są lepsze (wyjątki obejmują temperaturę dysku, liczbę cykli ładowania/rozładowywania głowicy), ale wyższe nieprzetworzone wartości atrybutów mogą być lepsze lub gorsze w zależności od atrybutu i producenta. Na przykład znormalizowana wartość atrybutu „Reallocated Sectors Count” zmniejsza się wraz ze wzrostem liczby realokowanych sektorów . W tym przypadku atrybut jest surowy wartość często wskazuje rzeczywistą liczbę sektorów, które zostały ponownie przydzielone, chociaż dostawcy nie są w żaden sposób zobowiązani do przestrzegania tej konwencji.

Ponieważ producenci niekoniecznie zgadzają się co do precyzyjnych definicji atrybutów i jednostek miary, poniższa lista atrybutów jest jedynie ogólną wskazówką.

Napędy nie obsługują wszystkich kodów atrybutów (czasami w tabelach określanych skrótem „ID” od „identyfikatora”). Niektóre kody są specyficzne dla określonych typów dysków (talerz magnetyczny, flash, SSD). Napędy mogą używać różnych kodów dla tego samego parametru, np. patrz kody 193 i 225.

Legenda
ID	193 0xC1	Kod atrybutu w notacji dziesiętnej i szesnastkowej
Ideał	Wysoki	Wyższa wartość surowa jest lepsza
Ideał	Niski	Niższa wartość surowa jest lepsza
! (Krytyczny)		Oznacza atrybut krytyczny . Określone wartości mogą przewidywać awarię dysku

ID	Nazwa atrybutu	Ideał	Opis
01 0x01	Odczyt współczynnika błędów	Niski	(Wartość surowa specyficzna dla dostawcy.) Przechowuje dane związane z częstością sprzętowych błędów odczytu, które wystąpiły podczas odczytu danych z powierzchni dysku. Surowa wartość ma różną strukturę dla różnych dostawców i często nie ma znaczenia jako liczba dziesiętna. W przypadku niektórych dysków liczba ta może wzrosnąć podczas normalnej pracy, niekoniecznie oznaczając błędy.
02 0x02	Wydajność przepustowości	Wysoki	Ogólna (ogólna) przepustowość dysku twardego. Jeśli wartość tego atrybutu maleje, istnieje duże prawdopodobieństwo, że wystąpił problem z dyskiem.
03 0x03	Czas rozkręcania	Niski	Średni czas rozkręcenia wrzeciona (od zera do pełnej sprawności [milisekundy]).
04 0x04	Licznik start/stop		Licznik cykli start/stop wrzeciona. Wrzeciono włącza się, a co za tym idzie, zliczanie jest zwiększane, zarówno wtedy, gdy dysk twardy jest włączany po wcześniejszym całkowitym wyłączeniu (odłączeniu od zasilania), jak i wtedy, gdy dysk twardy powraca ze stanu uśpienia.
05 0x05	Liczba realokowanych sektorów	Niski	Liczba realokowanych sektorów. Surowa wartość reprezentuje liczbę uszkodzonych sektorów , które zostały znalezione i ponownie zmapowane. Zatem im wyższa wartość atrybutu, tym więcej sektorów dysk musiał ponownie przydzielić. Ta wartość jest używana głównie jako miara oczekiwanej żywotności dysku; dysk, który w ogóle miał jakiekolwiek realokacje, jest znacznie bardziej narażony na awarię w najbliższych miesiącach.
06 0x06	Przeczytaj margines kanału		Margines kanału podczas odczytu danych. Funkcja tego atrybutu nie jest określona.
07 0x07	Szukaj współczynnika błędów	Zmienia się	(Wartość surowa specyficzna dla dostawcy.) Współczynnik błędów wyszukiwania głowic magnetycznych. Jeśli wystąpi częściowa awaria mechanicznego systemu pozycjonowania, pojawią się błędy wyszukiwania. Taka awaria może być spowodowana wieloma czynnikami, takimi jak uszkodzenie serwomechanizmu lub termiczne poszerzenie dysku twardego. Surowa wartość ma inną strukturę dla różnych dostawców i często nie ma znaczenia jako liczba dziesiętna. W przypadku niektórych dysków liczba ta może wzrosnąć podczas normalnej pracy, niekoniecznie oznaczając błędy.
08 0x08	Szukaj wydajności czasu	Wysoki	Średnia wydajność operacji wyszukiwania głowic magnetycznych. Jeśli ten atrybut maleje, jest to oznaką problemów w podsystemie mechanicznym.
09 0x09	Godziny włączenia		Liczba godzin w stanie włączenia. Surowa wartość tego atrybutu pokazuje całkowitą liczbę godzin (lub minut lub sekund, w zależności od producenta) w stanie włączenia zasilania. „Domyślnie całkowity oczekiwany czas życia dysku twardego w idealnym stanie jest zdefiniowany jako 5 lat (działający codziennie w dzień iw nocy we wszystkie dni). Odpowiada to 1825 dniom w trybie 24/7 lub 43800 godzinom”. Na niektórych dyskach sprzed 2005 r. ta surowa wartość może zmieniać się nieregularnie i/lub „zawijać” (okresowo resetować do zera).
10 0x0A	Liczba ponownych obrotów	Niski	Liczba ponownych prób startu obrotowego. Ten atrybut przechowuje całkowitą liczbę prób wirowania, aby osiągnąć pełną prędkość operacyjną (pod warunkiem, że pierwsza próba zakończyła się niepowodzeniem). Wzrost wartości tego atrybutu świadczy o problemach w podsystemie mechanicznym dysku twardego.
11 0x0B	ponownych prób kalibracji lub liczba ponownych prób kalibracji	Niski	Atrybut ten wskazuje liczbę żądaną ponownej kalibracji (pod warunkiem, że pierwsza próba zakończyła się niepowodzeniem). Wzrost wartości tego atrybutu świadczy o problemach w podsystemie mechanicznym dysku twardego.
12 0x0C	Liczba cykli zasilania		Ten atrybut wskazuje liczbę pełnych cykli włączania/wyłączania dysku twardego.
13 0x0D	Wskaźnik błędów odczytu miękkiego	Niski	Nieskorygowane błędy odczytu zgłoszone do systemu operacyjnego.
22 0x16	Bieżący poziom helu	Wysoki	Specyficzne dla dysków He8 firmy HGST. Ta wartość mierzy zawartość helu wewnątrz dysku, charakterystycznego dla tego producenta. Jest to atrybut przed awarią, który uruchamia się, gdy dysk wykryje, że środowisko wewnętrzne jest niezgodne ze specyfikacją.
23 0x17	Niższy stan helu		Specyficzne dla napędów MG07+ firmy Toshiba. Ta wartość mierzy niższy poziom helu wewnątrz dysku charakterystyczny dla tego producenta. Jest to atrybut przed awarią, który uruchamia się, gdy dysk wykryje, że środowisko wewnętrzne jest niezgodne ze specyfikacją.
24 0x18	Górna część z helem		Specyficzne dla napędów MG07+ firmy Toshiba. Ta wartość mierzy górny poziom helu wewnątrz dysku charakterystycznego dla tego producenta. Jest to atrybut przed awarią, który uruchamia się, gdy dysk wykryje, że środowisko wewnętrzne jest niezgodne ze specyfikacją.
170 0xAA	Dostępne zarezerwowane miejsce		Patrz atrybut E8.
171 0xAB	Liczba błędów programu SSD		(Kingston) Całkowita liczba niepowodzeń działania programu flash od momentu zainstalowania dysku. Identyczny z atrybutem 181.
172 0xAC	Liczba nieudanych wymazań SSD		(Kingston) Zlicza liczbę błędów wymazywania pamięci flash. Ten atrybut zwraca łączną liczbę niepowodzeń operacji wymazywania pamięci Flash od czasu wdrożenia dysku. Ten atrybut jest identyczny z atrybutem 182.
173 0xAD	Liczba poziomów zużycia SSD		Zlicza maksymalną liczbę najgorszych wymazań w dowolnym bloku.
174 0xAE	Nieoczekiwana liczba utraty zasilania		Znany również jako „liczba wycofań po wyłączeniu zasilania” zgodnie z konwencjonalną terminologią dysków twardych. Wartość surowa podaje liczbę nieczystych wyłączeń, skumulowaną w całym okresie eksploatacji dysku SSD, gdzie „nieczyste wyłączenie” to odłączenie zasilania bez STANDBY IMMEDIATE jako ostatniego polecenia (niezależnie od aktywności PLI wykorzystującej moc kondensatora). Znormalizowana wartość to zawsze 100.
175 0xAF	Awaria zabezpieczenia przed utratą zasilania		Ostatni wynik testu w mikrosekundach do nasadki rozładowania, nasyconej przy maksymalnej wartości. Rejestruje również minuty od ostatniego testu i całkowitą liczbę testów. Surowa wartość zawiera następujące dane: Bajty 0-1: Wynik ostatniego testu w mikrosekundach do rozładowania nasadki, nasycenie przy maksymalnej wartości. Oczekiwany wynik testu mieści się w zakresie 25 <= wynik <= 5000000, niższy oznacza określony kod błędu. Bajty 2-3: minuty od ostatniego testu, nasycenie przy maksymalnej wartości. Bajty 4-5: Liczba testów w całym okresie życia, nie zwiększana po wyłączeniu zasilania, nasyca się przy maksymalnej wartości. Znormalizowana wartość jest ustawiona na 1 w przypadku niepowodzenia testu lub 11, jeśli kondensator był testowany w warunkach nadmiernej temperatury, w przeciwnym razie 100.
176 0xB0	Usuń liczbę niepowodzeń		Parametr SMART wskazuje liczbę nieudanych poleceń wymazywania pamięci flash.
177 0xB1	Zużycie Delta zasięgu		Delta między najbardziej i najmniej zużytymi blokami Flash. Opisuje, jak dobre/złe jest wyrównywanie zużycia dysku SSD w bardziej techniczny sposób.
178 0xB2	Wykorzystana zarezerwowana liczba bloków		Atrybut „Przed awarią” używany przynajmniej w urządzeniach Samsung.
179 0xB3	Całkowita liczba wykorzystanych zarezerwowanych bloków		Atrybut „Przed awarią” używany przynajmniej w urządzeniach Samsung.
180 0xB4	Łączna liczba niewykorzystanych zarezerwowanych bloków		Atrybut „Przed awarią” używany przynajmniej w urządzeniach HP.
181 0xB5	Łączna liczba niepowodzeń programu lub liczba dostępów niezgodnych z 4K	Niski	Całkowita liczba niepowodzeń działania programu Flash od czasu wdrożenia dysku. Liczba dostępów do danych użytkownika (zarówno odczytów, jak i zapisów), w przypadku których LBA nie są wyrównane do 4 KiB (LBA % 8 != 0) lub gdy rozmiar nie jest równy modułowi 4 KiB (liczba bloków != 8), przy założeniu logicznego rozmiaru bloku (LBS) = 512 b.
182 0xB6	Usuń liczbę niepowodzeń		Atrybut „Przed awarią” używany przynajmniej w urządzeniach Samsung.
183 0xB7	SATA Downshift Error Count lub Runtime Bad Block	Niski	Atrybut Western Digital, Samsung lub Seagate: albo liczba redukcji prędkości łącza (np. z 6 Gbit/s do 3 Gbit/s), albo całkowita liczba bloków danych z wykrytymi, niemożliwymi do naprawienia błędami napotkanymi podczas normalnej pracy. Chociaż degradacja tego parametru może wskazywać na starzenie się napędu i/lub potencjalne problemy elektromechaniczne, nie wskazuje bezpośrednio na zbliżającą się awarię napędu.
184 0xB8	Błąd typu end-to-end / IOEDC	Niski	Ten atrybut jest częścią technologii SMART IV firmy Hewlett-Packard , a także częścią schematów wykrywania i korygowania błędów IO innych dostawców i zawiera liczbę błędów parzystości, które występują w ścieżce danych do nośnika przez dysk pamięć podręczna RAM.
185 0xB9	Stabilność głowy		Atrybut Western Digital.
186 0xBA	Wykrywanie wibracji indukowanych		Atrybut Western Digital.
187 0xBB	Zgłoszone błędy, których nie można naprawić	Niski	Liczba błędów, których nie można było naprawić przy użyciu sprzętowego ECC (patrz atrybut 195).
188 0xBC	Limit czasu polecenia	Niski	Liczba przerwanych operacji z powodu przekroczenia limitu czasu dysku twardego. Normalnie wartość tego atrybutu powinna być równa zeru.
189 0xBD	High Fly pisze	Niski	Producenci dysków twardych wdrażają czujnik wysokości lotu , który próbuje zapewnić dodatkowe zabezpieczenia operacji zapisu, wykrywając, kiedy głowica zapisująca wylatuje poza swój normalny zakres działania. W przypadku napotkania niebezpiecznej wysokości lotu proces zapisu jest zatrzymywany, a informacje są ponownie zapisywane lub przenoszone do bezpiecznego obszaru dysku twardego. Ten atrybut wskazuje liczbę tych błędów wykrytych w okresie eksploatacji dysku. Ta funkcja jest zaimplementowana w większości nowoczesnych dysków Seagate i niektórych dyskach Western Digital, począwszy od dysków twardych WD Enterprise WDE18300 i WDE9180 Ultra2 SCSI, i będzie dostępna we wszystkich przyszłych produktach WD Enterprise.
190 0xBE	Różnica temperatur lub temperatura przepływu powietrza	Zmienia się	Wartość jest równa (100-temp. °C), co pozwala producentowi na ustawienie minimalnego progu odpowiadającego maksymalnej temperaturze. Jest to również zgodne z konwencją, że 100 jest wartością w najlepszym przypadku, a niższe wartości są niepożądane. Jednak niektóre starsze dyski mogą zamiast tego zgłaszać surową temperaturę (identyczną z 0xC2) lub temperaturę minus 50 tutaj.
191 0xBF	Współczynnik błędów G-sense	Niski	Liczba błędów wynikających z zewnętrznych wstrząsów i wibracji.
192 0xC0	Liczba wycofań po wyłączeniu zasilania , liczba cykli wycofania awaryjnego (Fujitsu) lub liczba niebezpiecznych wyłączeń	Niski	Liczba cykli wyłączenia lub wycofania awaryjnego.
193 0xC1	Liczba cykli ładowania lub liczba cykli ładowania/rozładowania (Fujitsu)	Niski	Liczba cykli załadunku/rozładunku do pozycji strefy lądowania głowicy. Niektóre dyski zamiast tego używają 225 (0xE1) do licznika cykli ładowania. Western Digital ocenia swoje dyski VelociRaptor na 600 000 cykli ładowania/rozładowywania, a dyski WD Green na 300 000 cykli; te ostatnie są przeznaczone do częstego rozładowywania głowic w celu oszczędzania energii. Z drugiej strony, WD3000GLFS (dysk do komputerów stacjonarnych) jest przeznaczony tylko na 50 000 cykli ładowania/rozładowywania. Niektóre dyski do laptopów i dyski do komputerów stacjonarnych z „zieloną energią” są zaprogramowane tak, aby rozładowywać głowice, gdy przez krótki czas nie było żadnej aktywności, aby oszczędzać energię. Systemy operacyjne często uzyskują dostęp do systemu plików kilka razy na minutę w tle, powodując 100 lub więcej cykli ładowania na godzinę, jeśli głowice się rozładują: wskaźnik cyklu ładowania może zostać przekroczony w mniej niż rok. Istnieją programy dla większości systemów operacyjnych, które wyłączają zaawansowanego zarządzania energią (APM) i automatycznego zarządzania akustyką (AAM), powodując częste cykle ładowania.
194 0xC2	Temperatura lub Temperatura Celsjusza	Niski	Wskazuje temperaturę urządzenia, jeśli zamontowany jest odpowiedni czujnik. Najniższy bajt wartości surowej zawiera dokładną wartość temperatury (w stopniach Celsjusza).
195 0xC3	Odzyskano sprzętowe ECC	Zmienia się	(Wartość surowa specyficzna dla dostawcy). Wartość surowa ma różną strukturę dla różnych dostawców i często nie ma znaczenia jako liczba dziesiętna. W przypadku niektórych dysków liczba ta może wzrosnąć podczas normalnej pracy, niekoniecznie oznaczając błędy.
196 0xC4	Liczba zdarzeń realokacji	Niski	Liczba operacji ponownego mapowania. Surowa wartość tego atrybutu pokazuje całkowitą liczbę prób przesłania danych z ponownie przydzielonych sektorów do obszaru zapasowego. Liczone są zarówno udane, jak i nieudane próby.
197 0xC5	Bieżąca liczba sektorów oczekujących	Niski	Liczba „niestabilnych” sektorów (oczekujących na ponowne mapowanie z powodu nieodwracalnych błędów odczytu). Jeśli niestabilny sektor zostanie następnie pomyślnie odczytany, sektor jest ponownie mapowany, a wartość ta jest zmniejszana. Błędy odczytu w sektorze nie spowodują natychmiastowego ponownego mapowania sektora (ponieważ nie można odczytać prawidłowej wartości, więc wartość do ponownego mapowania nie jest znana, a także może stać się czytelna później); zamiast tego oprogramowanie układowe dysku zapamiętuje, że sektor musi zostać ponownie zmapowany, i zmapuje go ponownie przy następnym pomyślnym odczytaniu. Jednak niektóre dyski nie będą natychmiast ponownie mapować takich sektorów po pomyślnym odczytaniu; zamiast tego dysk najpierw podejmie próbę zapisu do sektora problematycznego, a jeśli operacja zapisu zakończy się pomyślnie, sektor zostanie oznaczony jako dobry (w tym przypadku „liczba zdarzeń realokacji” (0xC4) nie zostanie zwiększona). Jest to poważna wada, ponieważ jeśli taki dysk zawiera marginalne sektory, które konsekwentnie zawodzą dopiero po pewnym czasie od udanej operacji zapisu, to dysk nigdy nie zmapuje tych problematycznych sektorów.
198 0xC6	(Offline) Niemożliwa do skorygowania liczba sektorów	Niski	Całkowita liczba nienaprawialnych błędów podczas odczytu/zapisu sektora. Wzrost wartości tego atrybutu świadczy o defektach powierzchni dysku i/lub problemach w podsystemie mechanicznym.
199 0xC7	Licznik błędów CRC UltraDMA	Niski	Liczba błędów w przesyłaniu danych przez kabel interfejsu określona przez ICRC (Interface Cyclic Redundancy Check).
200 0xC8	Współczynnik błędów w wielu strefach	Niski	Liczba błędów znalezionych podczas zapisywania sektora. Im wyższa wartość, tym gorszy stan mechaniczny dysku.
200 0xC8	Współczynnik błędów zapisu (Fujitsu)	Niski	Całkowita liczba błędów podczas zapisywania sektora.
201 0xC9	współczynnik błędów miękkiego odczytu lub licznik TA	Niski	Liczba wskazuje liczbę nienaprawialnych błędów odczytu oprogramowania.
202 0xCA	Błędy znacznika adresu danych lub zwiększony licznik TA	Niski	Liczba błędów znacznika adresu danych (lub specyficznych dla dostawcy).
203 0xCB	Brak Anuluj	Niski	Liczba błędów spowodowanych błędną sumą kontrolną podczas korekcji błędów.
204 0xCC	Miękka korekcja ECC	Niski	Liczba błędów poprawionych przez wewnętrzne oprogramowanie do korekcji błędów.
205 0xCD	Współczynnik chropowatości termicznej	Niski	Liczba błędów spowodowanych wysoką temperaturą.
206 0xCE	Wysokość lotu		Wysokość głowic nad powierzchnią dysku. Jeśli jest zbyt nisko, bardziej prawdopodobne jest zderzenie głowy; jeśli jest zbyt wysoki, bardziej prawdopodobne są błędy odczytu/zapisu.
207 0xCF	Zakręć wysokim prądem	Niski	Ilość prądu udarowego użytego do rozkręcenia napędu.
208 0xD0	Zakręć Buzzem		Liczba procedur brzęczenia potrzebnych do przyspieszenia dysku z powodu niewystarczającej mocy.
209 0xD1	Wydajność wyszukiwania w trybie offline		Dysk sprawdza wydajność podczas wewnętrznych testów.
210 0xD2	Wibracje podczas zapisu		Znaleziono w dyskach Maxtor 6B200M0 200 GB i Maxtor 2R015H1 15 GB.
211 0xD3	Wibracje podczas zapisu		Nagranie wibracji napotkanych podczas operacji zapisu.
212 0xD4	Wstrząs podczas pisania		Nagranie wstrząsu napotkanego podczas operacji zapisu.
220 0xDC	Przesunięcie dysku	Niski	Odległość, o jaką dysk przesunął się względem wrzeciona (zwykle z powodu wstrząsu lub temperatury). Jednostka miary jest nieznana.
221 0xDD	Wskaźnik błędów G-Sense	Niski	Liczba błędów wynikających z zewnętrznych wstrząsów i wibracji. Częściej zgłaszane w 0xBF.
222 0xDE	Załadowane godziny		Czas pracy pod obciążeniem danymi (ruch twornika głowicy magnetycznej).
223 0xDF	Załaduj/rozładuj licznik ponownych prób		Liczba zmian pozycji głowy.
224 0xE0	Tarcie obciążenia	Niski	Opór spowodowany tarciem części mechanicznych podczas pracy.
225 0xE1	Licznik cykli załadunku/rozładunku	Niski	Całkowita liczba cykli ładowania Niektóre napędy zamiast tego używają 193 (0xC1) dla liczby cykli ładowania. Zobacz Opis dla 193 dla znaczenia tej liczby.
226 0xE2	Załaduj w czasie		Całkowity czas ładowania na siłownik głowicy magnetycznej (czas nie spędzony na parkingu).
227 0xE3	Licznik wzmocnienia momentu obrotowego	Niski	Liczba prób kompensacji zmian prędkości talerza.
228 0xE4	Cykl wycofania po wyłączeniu zasilania	Niski	Liczba cykli wyłączania, które są zliczane, gdy wystąpi „zdarzenie wycofania” i głowice zostaną zdjęte z nośnika, na przykład gdy maszyna jest wyłączona, uśpiona lub bezczynna.
230 0xE6	GMR Head Amplitude (magnetyczne dyski twarde), stan ochrony dysku (SSD)		Amplituda „bicia” (powtarzające się ruchy głowy między operacjami). W przypadku dysków półprzewodnikowych wskazuje, czy trajektoria użytkowania przekracza oczekiwaną krzywą żywotności
231 0xE7	Pozostały czas życia (SSD) lub temperatura		Wskazuje przybliżony pozostały okres eksploatacji dysku SSD, pod względem liczby cykli programowania/kasowania lub dostępnych zarezerwowanych bloków. Znormalizowana wartość 100 oznacza nowy dysk, a wartość progowa 10 wskazuje na konieczność wymiany. Wartość 0 może oznaczać, że dysk działa w trybie tylko do odczytu, aby umożliwić odzyskiwanie danych. Wcześniej (sprzed 2010 r.) sporadycznie używany do temperatury dysku (częściej zgłaszany jako 0xC2).
232 0xE8	Pozostała wytrzymałość lub dostępna zarezerwowana przestrzeń		Liczba cykli fizycznego wymazywania wykonanych na dysku SSD jako procent maksymalnej liczby cykli fizycznego wymazywania, które dysk ma wytrzymać. Dyski Intel SSD zgłaszają dostępną zarezerwowaną przestrzeń jako procent początkowej zarezerwowanej przestrzeni.
233 0xE9	Wskaźnik zużycia nośnika (SSD) lub godziny włączenia zasilania		Dyski Intel SSD zgłaszają znormalizowaną wartość od 100, nowy dysk, do minimum 1. Zmniejsza się, podczas gdy cykle kasowania NAND rosną od 0 do maksymalnych cykli znamionowych. Wcześniej (sprzed 2010 r.) okazjonalnie używane w godzinach włączenia zasilania (częściej zgłaszane w 0x09).
234 0xEA	Średnia liczba wymazań ORAZ maksymalna liczba wymazań		Dekodowany jako: bajt 0-1-2 = średnia liczba wymazań (big endian) i bajt 3-4-5 = maksymalna liczba wymazań (big endian).
235 0xEB	Dobra liczba bloków ORAZ System (darmowy) Liczba bloków		Dekodowane jako: bajt 0-1-2 = dobra liczba bloków (big endian) i bajt 3-4 = systemowa (wolna) liczba bloków.
240 0xF0	Head Flying Hours lub „ wskaźnik błędów transferu” (Fujitsu)		Czas spędzony podczas pozycjonowania głowic napędowych. Niektóre dyski Fujitsu zgłaszają liczbę resetów łącza podczas przesyłania danych.
241 0xF1	Łączna liczba napisanych LBA		Łączna liczba zapisanych LBA.
242 0xF2	Łączna liczba odczytanych adresów LBA		Łączna liczba odczytanych adresów LBA. Niektóre narzędzia SMART zgłaszają liczbę ujemną dla surowej wartości, ponieważ w rzeczywistości ma ona 48 bitów zamiast 32.
243 0xF3	Łączna liczba rozszerzonych zapisów LBA		Górne 5 bajtów z 12-bajtowej całkowitej liczby LBA zapisanych w urządzeniu. Niższa wartość 7-bajtowa znajduje się w atrybucie 0xF1.
244 0xF4	Łączna liczba rozszerzonych odczytów LBA		Górne 5 bajtów z 12-bajtowej całkowitej liczby LBA odczytanych z urządzenia. Niższa wartość 7-bajtowa znajduje się w atrybucie 0xF2.
249 0xF9	Zapisy NAND (1 GiB)		Całkowita liczba zapisów NAND. Wartość surowa podaje liczbę zapisów do NAND w krokach co 1 GB.
250 0xFA	Częstotliwość ponownych prób odczytu błędów	Niski	Liczba błędów podczas odczytu z dysku.
251 0xFB	Minimalne pozostałe części zamienne		Atrybut Minimum Spares Remaining wskazuje liczbę pozostałych bloków zapasowych jako procent całkowitej liczby dostępnych bloków zapasowych.
252 0xFC	Nowo dodany zły blok Flash		Atrybut Nowo dodany uszkodzony blok pamięci flash wskazuje całkowitą liczbę uszkodzonych bloków pamięci flash wykrytych przez dysk od czasu jego pierwszej inicjalizacji podczas produkcji.
254 0xFE	Bezpłatna ochrona przed upadkiem	Niski	Wykryto liczbę „wydarzeń swobodnego spadania”.

Znane statystyki urządzeń ATA

Strona	Zrównoważyć	Opis
0x01	0x08	Dożywotnie resetowanie po włączeniu zasilania
0x01	0x10	Godziny włączenia
0x01	0x18	Zapisane sektory logiczne
0x01	0x28	Odczyt sektorów logicznych
0x05	0x08	Obecna temperatura
0x05	0x20	Najwyższa temperatura
0x05	0x28	Najniższa temperatura
0x05	0x58	Określona maksymalna temperatura robocza
0x05	0x68	Określona minimalna temperatura robocza
0x07	0x08	Wskaźnik procentowego zużycia wytrzymałości

Warunek przekroczenia progu

Warunek przekroczenia progu (TEC) to szacowana data, kiedy krytyczny atrybut statystyki dysku osiągnie wartość progową. Gdy oprogramowanie Drive Health zgłasza „najbliższy TEC”, należy to traktować jako „datę awarii”. Czasami data nie jest podana i można oczekiwać, że dysk będzie działał bez błędów.

Aby przewidzieć datę, dysk śledzi szybkość zmian atrybutu. Należy pamiętać, że daty TEC są tylko szacunkami; dyski twarde mogą ulec awarii znacznie wcześniej lub znacznie później niż data TEC.

Atrybuty NVMe SMART

Specyfikacja NVMe zdefiniowała ujednolicone atrybuty SMART dla różnych producentów dysków.

Znane atrybuty NVMe SMART

ID	Nazwa atrybutu	Opis
01 0x01	Krytyczne ostrzeżenie	Krytyczne ostrzeżenia dotyczące stanu sterownika. Definicja bitu: Bit 00, wartość 1: Dostępny zapas jest poniżej progu. Bit 01, wartość 1: Temperatura przekracza wartość progową. Bit 02, wartość 1: Pogorszona niezawodność napędu. Bit 03, wartość 1: Przemiennik jest w trybie tylko do odczytu.
02 0x02	Temperatura złożona	Temperatura w stopniach Kelvina reprezentująca aktualną złożoną temperaturę kontrolera i jego przestrzeni nazw.
03 0x03	Dostępna część zamienna	Procent dostępnego zapasu.
04 0x04	Dostępny próg rezerwowy	Procent dostępnego wolnego progu.
05 0x05	Wykorzystany procent	Procent używanego okresu eksploatacji dysku.
06 0x06	Odczyt jednostek danych	Liczba 512-bajtowych jednostek danych, które host odczytał ze sterownika. Ta wartość nie obejmuje metadanych. Ta wartość jest podawana w tysiącach (tj. wartość 1 odpowiada 1000 zapisanych jednostek po 512 bajtów) i jest zaokrąglana w górę.
07 0x07	Zapisane jednostki danych	Liczba 512-bajtowych jednostek danych zapisanych przez hosta w kontrolerze. Ta wartość nie obejmuje metadanych. Ta wartość jest podawana w tysiącach (tj. wartość 1 odpowiada 1000 zapisanych jednostek po 512 bajtów) i jest zaokrąglana w górę.
08 0x08	Polecenia odczytu hosta	Liczba poleceń odczytu wykonanych przez kontroler.
09 0x09	Polecenia zapisu hosta	Liczba poleceń zapisu wykonanych przez kontroler.
10 0x0A	Czas zajętości kontrolera	Czas, przez jaki kontroler jest zajęty poleceniami wejścia/wyjścia.
11 0x0B	Cykle zasilania	Liczba cykli zasilania.
12 0x0C	Godziny włączenia	Liczba godzin włączonego zasilania, z wyłączeniem czasu włączenia w stanie zasilania nieoperacyjnego.
13 0x0D	Niebezpieczne wyłączenia	Liczba niebezpiecznych wyłączeń. Zwiększa się, gdy powiadomienie o wyłączeniu nie zostanie odebrane przed utratą zasilania.
14 0x0E	Błędy mediów	Liczba przypadków, w których kontroler wykrył nieodzyskany błąd integralności danych, w tym niemożliwy do naprawienia błąd ECC, błąd sumy kontrolnej CRC lub niezgodność tagów LBA.
15 0x0F	Liczba wpisów dziennika informacji o błędach	Liczba wpisów dziennika informacji o błędach w okresie eksploatacji kontrolera.

Autotesty

Dyski SMART mogą oferować szereg autotestów:

Krótki: Sprawdza działanie elektryczne i mechaniczne, a także wydajność odczytu dysku. Testy elektryczne mogą obejmować test bufora pamięci RAM, test obwodów odczytu/zapisu lub test elementów głowicy odczytu/zapisu. Test mechaniczny obejmuje wyszukiwanie i serwomechanizm na ścieżkach danych. Skanuje małe części powierzchni dysku (obszar zależy od dostawcy, a test jest ograniczony czasowo). Sprawdza listę oczekujących sektorów, które mogły zawierać błędy odczytu, i zwykle zajmuje to mniej niż dwie minuty.
Długi/rozszerzony: Dłuższa i dokładniejsza wersja krótkiego autotestu, skanująca całą powierzchnię dysku bez ograniczeń czasowych. Ten test zwykle trwa kilka godzin, w zależności od szybkości odczytu/zapisu dysku i jego rozmiaru.
Transport: Przeznaczony do szybkiego sprawdzenia uszkodzeń powstałych podczas transportu urządzenia od producenta dysku do producenta komputera. Dostępne tylko na dyskach ATA i zwykle zajmuje to kilka minut.
Selektywne: Niektóre napędy umożliwiają selektywne autotesty tylko części powierzchni.

Dzienniki autotestu dysków SCSI i ATA różnią się nieco. Możliwe jest, że długi test zakończy się pomyślnie, nawet jeśli krótki test zakończy się niepowodzeniem.

Dziennik autotestu dysku może zawierać do 21 wpisów tylko do odczytu. Po zapełnieniu dziennika stare wpisy są usuwane.

Dyski NVMe nie obsługują autotestów.

Zobacz też

Dalsza lektura

Stephens, Curtis E., wyd. (22 czerwca 2011), „Zestaw poleceń ATA/ATAPI - 2 (ACS-2)” (PDF) , Zestaw poleceń ATA 2 (wersja robocza) (wyd. 7), ANSI INCITS, s. 73 .
„Znaczenie atrybutu SMART” . siguardian.com . Zarchiwizowane od oryginału w dniu 26 lutego 2011 r . . Źródło 3 lutego 2006 .
Chlondowski, Zbigniew. „Serwis SMART: tabela referencyjna atrybutów” . Inteligentny Linuks . Źródło 17 stycznia 2007 .
„Znaczenie atrybutów SMART” . Ariolic. 2007 . Źródło 26 października 2007 .
„Czy możemy uwierzyć SMART?” . HDS Węgry . 2007 . Źródło 4 czerwca 2008 .
Allen, Bruce (2004). „Monitorowanie dysków twardych za pomocą SMART” . Dziennik Linuksa . Źródło 08 sierpnia 2010 .

Linki zewnętrzne

UC Santa Cruz i Quantum wypuszczają oprogramowanie SMART dla systemu Linux , Michael Cornwell .
Pakiet UCSC SMART , SourceForge autor: cornwell .
Czym smartmontools różni się od smartsuite? , SourceForge .
Narzędzia monitorowania SMART , SourceForge autorstwa: ballen4705 .
smartmontools i smartsuite , smartmontools.org .
GSmartControl to GUI dla smartctl (część smartmontools) autorstwa Alexandra Shaduri
Jak SMART jest twój dysk twardy? , Wielka Brytania : pc-king.co.uk .
Jak przewidzieć awarię dysku twardego (raport SMART) , 19.05.2010 z Palimpsestem (oryginalnie autorstwa Red Hat)
KB251: Zrozumienie awarii i błędów SMART i SMART , Western Digital .
Jak działa funkcja SMART dysków twardych? .
Hard Drive SMART Stats , raport terenowy na dużą skalę
Specyfikacja atrybutów Seagate SMART
Normalne zachowanie atrybutu SATA SMART (Seagate)
Duży zbiór raportów SMART