Awaria dysku twardego
Awaria dysku twardego występuje, gdy dysk twardy działa nieprawidłowo i nie można uzyskać dostępu do przechowywanych informacji za pomocą odpowiednio skonfigurowanego komputera.
Awaria dysku twardego może wystąpić podczas normalnej pracy lub z powodu czynników zewnętrznych, takich jak wystawienie na działanie ognia, wody lub silnych pól magnetycznych , ostre uderzenie lub zanieczyszczenie środowiska, co może doprowadzić do wypadku głowy .
Informacje przechowywane na dysku twardym mogą również stać się niedostępne w wyniku uszkodzenia danych , przerwania lub zniszczenia głównego rekordu rozruchowego dysku twardego lub celowego zniszczenia zawartości dysku przez złośliwe oprogramowanie .
Powoduje
Istnieje wiele przyczyn awarii dysków twardych, w tym: błąd ludzki, awaria sprzętu, uszkodzenie oprogramowania układowego, uszkodzenie nośnika, ciepło, uszkodzenie przez wodę, problemy z zasilaniem i wypadki. Producenci napędów zazwyczaj określają średni czas między awariami (MTBF) lub roczny wskaźnik awaryjności (AFR), które są statystykami populacji, które nie mogą przewidzieć zachowania pojedynczej jednostki. Są one obliczane na podstawie stale uruchamianych próbek dysku przez krótki czas, analizując wynikowe zużycie fizycznych komponentów dysku i ekstrapolując, aby zapewnić rozsądne oszacowanie jego żywotności. Awarie dysków twardych zwykle są zgodne z koncepcją krzywej wanny . Dyski zwykle ulegają awarii w krótkim czasie, jeśli występuje wada produkcyjna. Jeśli dysk okaże się niezawodny przez okres kilku miesięcy po instalacji, ma znacznie większe szanse na pozostanie niezawodnym. Dlatego nawet jeśli dysk jest poddawany intensywnej codziennej eksploatacji przez kilka lat, może nie wykazywać żadnych zauważalnych oznak zużycia, chyba że zostanie dokładnie sprawdzony. Z drugiej strony dysk może ulec awarii w dowolnym momencie w wielu różnych sytuacjach.
Najbardziej znaną przyczyną awarii dysku jest awaria głowicy , gdy wewnętrzna głowica odczytu i zapisu urządzenia, zwykle unosząca się nad powierzchnią, dotyka talerza lub zarysowuje magnetyczną powierzchnię do przechowywania danych . Awaria głowy zwykle wiąże się z poważną utratą danych , a próby odzyskania danych mogą spowodować dalsze szkody, jeśli nie zostaną wykonane przez specjalistę dysponującego odpowiednim sprzętem. Talerze napędów pokryte są niezwykle cienką warstwą antyelektrostatyczną smaru, dzięki czemu głowica odczytująco-zapisująca prawdopodobnie po prostu oderwie się od powierzchni talerza w przypadku kolizji. Jednak ta głowa unosi się zaledwie kilka nanometrów od powierzchni talerza, co sprawia, że kolizja jest uznanym ryzykiem.
Inną przyczyną awarii jest wadliwy filtr powietrza . Filtry powietrza we współczesnych dyskach wyrównują ciśnienie atmosferyczne i wilgotność między obudową dysku a środowiskiem zewnętrznym. Jeśli filtrowi nie uda się wychwycić cząsteczki kurzu, cząsteczka może wylądować na talerzu, powodując awarię głowicy, jeśli głowica przesunie się po niej. Po zderzeniu głowicy cząsteczki z uszkodzonego talerza i głowicy mogą spowodować uszkodzenie jednego lub kilku uszkodzonych sektorów . To, oprócz uszkodzenia talerza, szybko sprawi, że dysk stanie się bezużyteczny.
Napęd zawiera również elektronikę kontrolera, która czasami zawodzi. W takich przypadkach może być możliwe odzyskanie wszystkich danych poprzez wymianę płyty kontrolera.
Zjawisko awarii dysków nie ogranicza się tylko do dysków, ale dotyczy również innych rodzajów nośników magnetycznych. Pod koniec lat 90. 100-megabajtowe dyski Zip firmy Iomega , używane w napędach Zip , zostały dotknięte kliknięciem śmierci , zwanym tak, ponieważ dyski nieprzerwanie klikały podczas uzyskiwania dostępu, wskazując na zbliżającą się awarię. Dyskietki 3,5-calowe również mogą paść ofiarą awarii dysku. Jeśli dysk lub nośnik są zabrudzone, użytkownicy mogą usłyszeć brzęczenie śmierci podczas próby uzyskania dostępu do dysku.
Oznaki awarii napędu
Awaria dysku twardego może być katastrofalna lub stopniowa. Ten pierwszy zazwyczaj przedstawia się jako dysk, którego nie można już wykryć przez konfigurację CMOS lub który nie przechodzi testu POST systemu BIOS , przez co system operacyjny nigdy go nie widzi. Stopniowa awaria dysku twardego może być trudniejsza do zdiagnozowania, ponieważ jej symptomy, takie jak uszkodzone dane i spowolnienie komputera (spowodowane stopniową awarią obszarów dysku twardego wymagających wielokrotnych prób odczytu przed pomyślnym uzyskaniem dostępu), mogą być spowodowane przez wiele innych problemy z komputerem, takie jak złośliwe oprogramowanie . Rosnąca liczba uszkodzonych sektorów może być oznaką awarii dysku twardego, ale ponieważ dysk twardy automatycznie dodaje je do własnej tabeli defektów wzrostu, mogą one nie być widoczne dla narzędzi takich jak ScanDisk, chyba że narzędzie to wykryje je przed twardym dyskiem . system zarządzania defektami dysku lub sektory kopii zapasowych utrzymywane w rezerwie przez wewnętrzny system zarządzania defektami dysku twardego wyczerpią się (w tym momencie dysk jest bliski całkowitej awarii). Cykliczny, powtarzający się wzorzec czynności wyszukiwania, taki jak szybkie lub wolniejsze odgłosy wyszukiwania do końca ( kliknięcie śmierci ) może wskazywać na problemy z dyskiem twardym.
Strefy lądowania i technologia załadunku/rozładunku
Podczas normalnej pracy głowy w dyskach twardych przelatują nad danymi zapisanymi na dyskach. Nowoczesne dyski twarde zapobiegają przerwom w zasilaniu lub innym usterkom, które mogłyby trafić do strefy danych, albo fizycznie przesuwając ( parkując ) głowice do specjalnej strefy na talerzach, która nie jest używana do przechowywania danych, albo fizycznie blokując głowice w zawieszonym ( bez obciążenia ) pozycja podniesiona z talerzy. Niektóre wczesne dyski twarde do komputerów PC nie parkowały głowic automatycznie, gdy zasilanie zostało przedwcześnie odłączone, a głowice lądowały na danych. W niektórych innych wczesnych jednostkach użytkownik uruchamiał program do ręcznego parkowania głowic.
Strefy lądowania
Strefa lądowania to obszar talerza, zwykle w pobliżu jego wewnętrznej średnicy (ID), w którym nie są przechowywane żadne dane. Obszar ten nazywany jest strefą Contact Start/Stop (CSS) lub strefą lądowania. Dyski są zaprojektowane w taki sposób, że sprężyna lub , ostatnio, bezwładność obrotowa talerzy służy do parkowania głowic w przypadku nieoczekiwanej utraty zasilania. W tym przypadku silnik wrzeciona działa chwilowo jako generator , dostarczając energię do siłownika.
Napięcie sprężyny z mocowania głowicy stale popycha głowice w kierunku talerza. Gdy dysk się obraca, głowice są podtrzymywane przez łożysko powietrzne i nie doświadczają fizycznego kontaktu ani zużycia. W CSS napędza suwaki przenoszące czujniki głowy (często nazywane też po prostu głowami ) są zaprojektowane tak, aby przetrwać szereg lądowań i startów z powierzchni mediów, chociaż zużycie tych mikroskopijnych elementów w końcu zbiera swoje żniwo. Większość producentów projektuje suwaki tak, aby przetrwały 50 000 cykli kontaktowych, zanim prawdopodobieństwo uszkodzenia podczas uruchamiania wzrośnie powyżej 50%. Jednak tempo rozpadu nie jest liniowe: gdy dysk jest młodszy i miał mniej cykli start-stop, ma większe szanse na przetrwanie następnego uruchomienia niż starszy dysk o większym przebiegu (ponieważ głowa dosłownie ciągnie się wzdłuż dysku powierzchnię, aż do ustalenia się łożyska powietrznego). Na przykład seria dysków twardych Seagate Barracuda 7200.10 do komputerów stacjonarnych jest oceniana na 50 000 cykli start-stop; innymi słowy, nie zaobserwowano żadnych awarii przypisywanych interfejsowi głowica-talerz przed co najmniej 50 000 cykli start-stop podczas testów.
Około roku 1995 firma IBM była pionierem technologii, w której strefa lądowania na dysku jest tworzona przez precyzyjny proces laserowy ( Laser Zone Texture = LZT), wytwarzający szereg gładkich „wybrzuszeń” w skali nanometrowej w strefie lądowania, co znacznie poprawia tarcie i zużycie. Ta technologia jest nadal używana, głównie w dyskach Seagate do komputerów stacjonarnych o mniejszej pojemności, ale została wycofana w dyskach 2,5-calowych, a także w dyskach stacjonarnych o większej pojemności, NAS i dyskach korporacyjnych na rzecz ramp załadunku/rozładunku. , technologia CSS może być podatna na zwiększone tarcie (skłonność głowic do przyklejania się do powierzchni talerza), np. w wyniku zwiększonej wilgotności. Nadmierne tarcie może spowodować fizyczne uszkodzenie talerza i suwaka lub silnika wrzeciona.
Rozładunek
ładowania/rozładowywania polega na podnoszeniu głowic z talerzy w bezpieczne miejsce, co całkowicie eliminuje ryzyko zużycia i tarcia . Pierwszy HDD RAMAC i większość wczesnych dysków wykorzystywała złożone mechanizmy do ładowania i rozładowywania głowic. Prawie wszystkie nowoczesne dyski twarde wykorzystują ładowanie rampowe, po raz pierwszy wprowadzone przez Memorex w 1967 r., Do ładowania / rozładowywania na plastikowe „rampy” w pobliżu zewnętrznej krawędzi dysku. Dyski do laptopów przyjęły to ze względu na potrzebę zwiększonej odporności na wstrząsy, a następnie ostatecznie przyjęto to na większości dysków do komputerów stacjonarnych.
Odnosząc się do odporności na wstrząsy, IBM stworzył również technologię dla swojej linii laptopów ThinkPad o nazwie Active Protection System. Gdy wbudowany w ThinkPad akcelerometr wykryje nagły, ostry ruch, wewnętrzne głowice dysków twardych automatycznie rozładowują się, aby zmniejszyć ryzyko potencjalnej utraty danych lub zarysowań. Firma Apple wykorzystała później tę technologię również w swoich liniach PowerBook , iBook , MacBook Pro i MacBook , znanych jako Czujnik nagłego ruchu . Sony , HP ze swoim HP 3D DriveGuard i Toshiba wypuściły podobną technologię w swoich notebookach.
Tryby awarii
Dyski twarde mogą ulec awarii na wiele sposobów. Niepowodzenie może być natychmiastowe i całkowite, postępujące lub ograniczone. Dane mogą zostać całkowicie zniszczone lub częściowo lub całkowicie odzyskane.
Wcześniejsze dyski miały tendencję do rozwijania uszkodzonych sektorów wraz z użytkowaniem i zużyciem; te uszkodzone sektory można było „zmapować”, aby nie były używane i nie wpływały na działanie dysku, co uznano za normalne, chyba że w krótkim czasie rozwinęło się wiele uszkodzonych sektorów. Niektóre wczesne dyski miały nawet tabelę przymocowaną do obudowy dysku, na której miały być wyświetlane uszkodzone sektory w miarę ich pojawiania się. Późniejsze dyski mapują uszkodzone sektory automatycznie, w sposób niewidoczny dla użytkownika; dysk z ponownie mapowanymi sektorami może być nadal używany, chociaż wydajność może spaść, ponieważ dysk musi fizycznie przenieść głowice do ponownie mapowanego sektora. Statystyki i dzienniki dostępne przez SMART (Self-Monitoring, Analysis, and Reporting Technology) dostarcza informacji o remapowaniu. W nowoczesnych dyskach twardych każdy dysk jest dostarczany z zerowymi uszkodzonymi sektorami widocznymi dla użytkownika, a wszelkie uszkodzone/ponownie przydzielone sektory mogą przewidywać zbliżającą się awarię dysku.
Inne awarie, które mogą być postępujące lub ograniczone, są zwykle uważane za powód do wymiany dysku; wartość potencjalnie zagrożonych danych zwykle znacznie przewyższa koszty zaoszczędzone na dalszym korzystaniu z dysku, który może ulec awarii. Powtarzające się, ale możliwe do naprawienia błędy odczytu lub zapisu, nietypowe odgłosy, nadmierne i nietypowe nagrzewanie się oraz inne nieprawidłowości są znakami ostrzegawczymi.
- Awaria głowicy : głowica może zetknąć się z obracającym się talerzem z powodu wstrząsu mechanicznego lub z innego powodu. W najlepszym przypadku spowoduje to nieodwracalne szkody i utratę danych w miejscu nawiązania kontaktu. W najgorszym przypadku zanieczyszczenia zeskrobane z uszkodzonego obszaru mogą zanieczyścić wszystkie głowice i talerze oraz zniszczyć wszystkie dane na wszystkich talerzach. Jeśli uszkodzenie jest początkowo tylko częściowe, dalsze obracanie napędu może rozszerzyć uszkodzenie, aż do całkowitego.
- Uszkodzone sektory : niektóre sektory magnetyczne mogą ulec uszkodzeniu, ale cały dysk nie nadaje się do użytku. Może to być ograniczone zdarzenie lub oznaka zbliżającej się awarii. Dysk, który ma jakiekolwiek ponownie przydzielone sektory, ma znacznie większe prawdopodobieństwo, że wkrótce ulegnie awarii.
- Ścieranie : po pewnym czasie głowica może nie „zdejmować się” po uruchomieniu, ponieważ ma tendencję do przyklejania się do talerza, zjawisko znane jako tarcie . Jest to zwykle spowodowane nieodpowiednimi właściwościami smarnymi powierzchni talerza, wadą konstrukcyjną lub produkcyjną, a nie zużyciem. Czasami zdarzało się to w przypadku niektórych projektów aż do wczesnych lat 90.
- Awaria obwodu : elementy obwodów elektronicznych mogą ulec uszkodzeniu, powodując, że napęd przestanie działać, często z powodu wyładowania elektrostatycznego lub błędu użytkownika.
- Awaria łożyska i silnika : silniki elektryczne mogą ulec awarii lub spalić się, a łożyska mogą się zużyć na tyle, że uniemożliwią prawidłową pracę. Ponieważ nowoczesne dyski wykorzystują łożyska dynamiczne, jest to stosunkowo rzadka przyczyna awarii nowoczesnych dysków twardych.
- Różne awarie mechaniczne : części, w szczególności części ruchome, dowolnego mechanizmu mogą pęknąć lub ulec awarii, uniemożliwiając normalne działanie, z możliwymi dalszymi uszkodzeniami spowodowanymi przez odłamki.
Metryki awarii
Większość głównych dostawców dysków twardych i płyt głównych obsługuje technologię SMART , która mierzy parametry dysku, takie jak temperatura robocza , czas rozruchu, wskaźniki błędów danych itp. Uważa się, że pewne trendy i nagłe zmiany tych parametrów są związane ze zwiększonym prawdopodobieństwem awarii dysku i utraty danych. Jednak same parametry SMART mogą nie być przydatne do przewidywania awarii poszczególnych dysków. Chociaż kilka parametrów SMART wpływa na prawdopodobieństwo awarii, duża część uszkodzonych dysków nie generuje predykcyjnych parametrów SMART. Nieprzewidziana awaria może wystąpić w dowolnym momencie podczas normalnego użytkowania, z potencjalną utratą wszystkich danych. Odzyskanie części lub nawet wszystkich danych z uszkodzonego dysku jest czasami, ale nie zawsze, możliwe i zazwyczaj kosztowne.
Badanie z 2007 roku opublikowane przez Google zasugerowało bardzo małą korelację między wskaźnikami awaryjności a wysoką temperaturą lub poziomem aktywności. Rzeczywiście, badanie Google wykazało, że „jednym z naszych kluczowych ustaleń był brak spójnego wzorca wyższych wskaźników awaryjności dla dysków o wyższej temperaturze lub dla tych dysków o wyższym poziomie wykorzystania”. Dyski twarde o średniej temperaturze zgłaszanej przez SMART poniżej 27°C (81°F) charakteryzowały się wyższym wskaźnikiem awaryjności niż dyski twarde o najwyższej zgłoszonej średniej temperaturze 50°C (122°F), współczynniki awaryjności co najmniej dwa razy wyższe niż optymalna Zakres temperatur raportowany przez SMART od 36°C (97°F) do 47°C (117°F). Korelacja między producentami, modelami i awaryjnością była stosunkowo silna. Statystyki w tej materii są przez większość podmiotów utrzymywane w ścisłej tajemnicy; Google nie powiązał nazw producentów ze wskaźnikami awaryjności, chociaż ujawniono, że Google używa dysków Hitachi Deskstar w niektórych swoich serwerach.
Badanie Google z 2007 r. wykazało, na podstawie dużej próby dysków, że rzeczywiste roczne wskaźniki awaryjności ( AFR ) poszczególnych dysków wahały się od 1,7% w przypadku dysków pierwszego roku do ponad 8,6% w przypadku dysków trzyletnich. Podobne badanie przeprowadzone w 2007 roku przez CMU na dyskach klasy korporacyjnej wykazało, że zmierzony MTBF był 3–4 razy niższy niż w specyfikacji producenta, przy szacowanym średnim AFR na poziomie 3% w ciągu 1–5 lat na podstawie dzienników wymiany dużej próbki dysków, a to trudne awarie dysków były silnie skorelowane w czasie.
Badanie dotyczące ukrytych błędów sektorów z 2007 r. (w przeciwieństwie do powyższych badań dotyczących całkowitych awarii dysków) wykazało, że na 3,45% z 1,5 miliona dysków wystąpiły ukryte błędy sektorów w ciągu 32 miesięcy (3,15% dysków nearline i 1,46% dysków klasy korporacyjnej rozwinęło co najmniej jeden ukryty błąd sektorowy w ciągu dwunastu miesięcy od daty ich statku), przy czym roczny poziom błędów sektorowych wzrastał między pierwszym a drugim rokiem. Dyski korporacyjne wykazały mniej błędów sektorów niż dyski konsumenckie. że czyszczenie tła skutecznie koryguje te błędy.
SCSI , SAS i FC są droższe niż dyski SATA klasy konsumenckiej i są zwykle używane w serwerach i macierzach dyskowych , gdzie dyski SATA były sprzedawane na rynek komputerów domowych i stacjonarnych oraz pamięci masowych typu near-line i były postrzegane jako mniej niezawodne . Obecnie to rozróżnienie zaciera się.
Średni czas między awariami (MTBF) dysków SATA jest zwykle określany na około 1 milion godzin (niektóre dyski, takie jak Western Digital Raptor, mają wskaźnik MTBF na 1,4 miliona godzin), podczas gdy dyski SAS/FC są oceniane na ponad 1,6 miliona godzin. Nowoczesne dyski wypełnione helem są całkowicie uszczelnione bez otworu odpowietrzającego, co eliminuje ryzyko wnikania zanieczyszczeń, co skutkuje typowym MTBF na poziomie 2,5 miliona godzin. Jednak niezależne badania wskazują, że MTBF nie jest wiarygodnym oszacowaniem długowieczności dysku ( żywotności ). MTBF jest przeprowadzany w warunkach laboratoryjnych w komorach testowych i jest ważną miarą do określania jakości dysku, ale jest przeznaczony tylko do pomiaru stosunkowo stałego wskaźnika awaryjności w całym okresie użytkowania dysku (środek „krzywej wanny ” ) przed końcową fazą zużycia. Bardziej zrozumiałym, ale równoważnym miernikiem MTBF jest roczny wskaźnik awaryjności (AFR). AFR to procent przewidywanych awarii dysków w ciągu roku. Zarówno AFR, jak i MTBF zwykle mierzą niezawodność tylko w początkowej fazie życia dysku twardego, tym samym zaniżając rzeczywiste prawdopodobieństwo awarii używanego dysku.
Backblaze , firma zajmująca się przechowywaniem danych w chmurze , sporządza coroczny raport dotyczący niezawodności dysków twardych. Firma twierdzi jednak, że korzysta głównie z dysków konsumenckich, które są wdrażane w warunkach przedsiębiorstwa, a nie w ich reprezentatywnych warunkach i zgodnie z ich przeznaczeniem. Dyski konsumenckie również nie są testowane pod kątem współpracy z korporacyjnymi macierzami RAID karty typu używanego w centrum danych i mogą nie reagować w czasie oczekiwanym przez kontroler RAID; takie karty zostaną zidentyfikowane jako nieudane, gdy tak nie jest. Wyniki tego rodzaju testów mogą być istotne lub nieistotne dla różnych użytkowników, ponieważ dokładnie reprezentują wydajność dysków konsumenckich w przedsiębiorstwie lub w warunkach ekstremalnego obciążenia, ale mogą nie odzwierciedlać dokładnie ich wydajności podczas normalnego lub zamierzonego użytkowania.
Przykładowe rodziny dysków o wysokim współczynniku awaryjności
- IBM 3380 DASD, 1984 ok.
- Computer Memories Inc. 20MB HDD do PC/AT, 1985 ok.
- Seria Fujitsu MPG3 i MPF3, 2002 ok.
- IBM Deskstar 75GXP , 2001 ok.
- Seagate ST3000DM001 , 2012 ok.
Łagodzenie
Aby uniknąć utraty danych z powodu awarii dysku, typowe rozwiązania obejmują:
- Kopia zapasowa danych , umożliwiająca przywrócenie danych po awarii
- Czyszczenie danych w celu wykrycia i naprawy ukrytych uszkodzeń
- Nadmiarowość danych , aby umożliwić systemom tolerowanie awarii poszczególnych dysków
- Aktywna ochrona dysku twardego , chroniąca dyski laptopa przed zewnętrznymi siłami mechanicznymi
- SMART (Self-Monitoring, Analysis, and Reporting Technology) zawarta w dyskach twardych, zapewniająca wczesne ostrzeganie o przewidywalnych trybach awarii
- Izolacja podstawy stosowana pod szafami serwerowymi w centrach danych
Odzyskiwanie danych
Dane z uszkodzonego dysku można czasem częściowo lub całkowicie odzyskać , jeśli powłoka magnetyczna talerzy nie zostanie całkowicie zniszczona. Wyspecjalizowane firmy przeprowadzają odzyskiwanie danych, co wiąże się ze znacznymi kosztami. Odzyskanie danych może być możliwe poprzez otwarcie dysków w czystym pomieszczeniu oraz użycie odpowiedniego sprzętu do wymiany lub rewitalizacji uszkodzonych komponentów. Jeśli elektronika uległa awarii, czasami możliwa jest wymiana płytki elektroniki, chociaż często dyski nominalnie dokładnie tego samego modelu wyprodukowane w różnym czasie mają różne płytki drukowane, które są niekompatybilne. Ponadto płytki elektroniczne nowoczesnych napędów zwykle zawierają dane adaptacyjne specyficzne dla napędu , wymagane do uzyskania dostępu do ich obszarów systemowych , więc powiązane komponenty muszą zostać przeprogramowane (jeśli to możliwe) lub rozlutowane i przeniesione między dwiema płytkami elektronicznymi.
Czasami działanie można przywrócić na wystarczająco długo, aby odzyskać dane, co może wymagać technik rekonstrukcji, takich jak wycinanie plików . Ryzykowne techniki mogą być uzasadnione, jeśli dysk jest poza tym martwy. Jeśli dysk zostanie uruchomiony raz, może działać krócej lub dłużej, ale nigdy się nie uruchamia ponownie, więc jak najwięcej danych jest odzyskiwanych natychmiast po uruchomieniu dysku.
Zobacz też
Linki zewnętrzne
- Backblaze: roczne wskaźniki awaryjności dysków twardych, 2019 r ., 2. kwartał 2020 r
- Trendy awarii w populacji dużych dysków — Google, Inc., luty 2007 r
- Czyste spojrzenie na czyszczenie dysku
- Hałasy powodowane przez uszkodzone i niesprawne dyski twarde
- Anatomia dysku twardego: awarie logiczne i fizyczne