Miękki błąd
W elektronice i informatyce błąd miękki jest rodzajem błędu , w którym sygnał lub punkt odniesienia są nieprawidłowe. Błędy mogą być spowodowane przez defekt , zwykle rozumiany jako błąd w projekcie lub konstrukcji, albo uszkodzony element. Miękki błąd jest również sygnałem lub punktem odniesienia, który jest nieprawidłowy, ale nie zakłada się, że oznacza taki błąd lub pęknięcie. Po zaobserwowaniu miękkiego błędu nie ma sugestii, że system jest mniej niezawodny niż wcześniej. Jedną z przyczyn miękkich błędów są pojedyncze zakłócenia wywołane promieniowaniem kosmicznym.
W systemie pamięci komputera błąd programowy zmienia instrukcję w programie lub wartość danych. Błędy programowe zazwyczaj można naprawić, uruchamiając komputer na zimno. Miękki błąd nie spowoduje uszkodzenia sprzętu systemu; jedyne szkody dotyczą przetwarzanych danych.
Istnieją dwa rodzaje błędów miękkich, błąd miękki na poziomie chipa i błąd miękki na poziomie systemu . Miękkie błędy na poziomie chipa pojawiają się, gdy cząstki uderzają w chip, np. gdy cząstki wtórne z promieni kosmicznych lądują na krzemowej matrycy . Jeśli cząsteczka o określonych właściwościach uderzy w komórkę pamięci może spowodować zmianę stanu komórki na inną wartość. Reakcja atomowa w tym przykładzie jest tak mała, że nie uszkadza fizycznej struktury chipa. Miękkie błędy na poziomie systemu pojawiają się, gdy przetwarzane dane są dotknięte zjawiskiem szumu, zwykle gdy dane znajdują się na szynie danych. Komputer próbuje zinterpretować szum jako bit danych, co może powodować błędy w adresowaniu lub przetwarzaniu kodu programu. Zły bit danych może nawet zostać zapisany w pamięci i powodować problemy w późniejszym czasie.
W przypadku wykrycia błędu programowego można go naprawić, przepisując poprawne dane w miejsce błędnych danych. Wysoce niezawodne systemy wykorzystują korekcję błędów do korygowania miękkich błędów w locie. Jednak w wielu systemach określenie prawidłowych danych lub nawet wykrycie, że w ogóle występuje błąd, może być niemożliwe. Ponadto zanim nastąpi naprawa, system mógł ulec awarii , w takim przypadku procedura odzyskiwania musi obejmować ponowne uruchomienie . Błędy miękkie obejmują zmiany w danych — elektronach na przykład w obwodzie magazynowania — „ale nie zmiany w samym obwodzie fizycznym, atomach . Jeśli dane zostaną przepisane, obwód znów będzie działał idealnie. Miękkie błędy mogą wystąpić na liniach transmisyjnych, w logice cyfrowej, obwodach analogowych, pamięciach magnetycznych i innych miejscach, ale są najczęściej znane w pamięciach półprzewodnikowych.
Ładunek krytyczny
To, czy obwód doświadcza miękkiego błędu, zależy od energii nadlatującej cząstki, geometrii uderzenia, lokalizacji uderzenia i konstrukcji obwodu logicznego. Obwody logiczne o większej pojemności i wyższych napięciach logicznych są mniej podatne na błędy. Ta kombinacja pojemności i napięcia jest opisana parametrem ładunku krytycznego , Qcrit , minimalnym zaburzeniem ładunku elektronów potrzebnym do zmiany poziomu logicznego. Wyższe trafienie krytyczne Q oznacza mniej miękkich błędów. Niestety wyższe trafienie krytyczne Q oznacza również wolniejszą bramkę logiczną i większe rozpraszanie mocy. Zmniejszenie rozmiaru funkcji chipa i napięcia zasilania, pożądane z wielu powodów, zmniejsza Qcrit . Dlatego znaczenie błędów miękkich wzrasta wraz z postępem technologii chipów.
W obwodzie logicznym Qkryt definiuje się jako minimalną ilość indukowanego ładunku wymaganego w węźle obwodu, aby spowodować rozchodzenie się impulsu napięcia z tego węzła do wyjścia i mieć wystarczający czas trwania i wielkość, aby niezawodnie zatrzasnąć. Ponieważ obwód logiczny zawiera wiele węzłów, które mogą zostać uderzone, a każdy węzeł może mieć unikalną pojemność i odległość od wyjścia, wartość Qcrit jest zwykle charakteryzowana dla poszczególnych węzłów.
Przyczyny błędów miękkich
Cząsteczki alfa z rozpadu opakowania
Miękkie błędy stały się powszechnie znane wraz z wprowadzeniem dynamicznej pamięci RAM w latach 70. W tych wczesnych urządzeniach materiały opakowaniowe na chipy ceramiczne zawierały niewielkie ilości radioaktywnych . Potrzebne są bardzo niskie współczynniki rozpadu, aby uniknąć nadmiernych błędów miękkich, a firmy produkujące chipy od czasu do czasu mają problemy z zanieczyszczeniem. Utrzymanie wymaganej czystości materiału jest niezwykle trudne. Kontrolowanie wskaźników emisji cząstek alfa dla krytycznych materiałów opakowaniowych do poziomu poniżej 0,001 zliczeń na godzinę na cm 2 (cph/cm 2 ) jest wymagany do niezawodnego działania większości obwodów. Dla porównania, szybkość zliczania typowej podeszwy buta wynosi od 0,1 do 10 cph/ cm2 .
Rozpad radioaktywny pakietu zwykle powoduje miękki błąd w postaci emisji cząstek alfa . Dodatnio naładowana cząstka alfa przechodzi przez półprzewodnik i zaburza tam rozkład elektronów. Jeśli zakłócenia są wystarczająco duże, sygnał cyfrowy może zmienić się z 0 na 1 lub odwrotnie. W logice kombinacyjnej efekt ten jest przejściowy, być może trwający ułamek nanosekundy, co doprowadziło do tego, że miękkie błędy w logice kombinacyjnej w większości pozostają niezauważone. W logice sekwencyjnej, takiej jak zatrzaski i pamięć RAM , nawet to przejściowe zakłócenie może zostać zapisane na czas nieokreślony, do późniejszego odczytania. Dlatego projektanci są zwykle znacznie bardziej świadomi problemu w obwodach pamięci masowej.
Black Hat z 2011 r. omawia rzeczywiste implikacje bezpieczeństwa wynikające z takich przerzucania bitów w internetowym systemie nazw domen . W artykule wykryto do 3434 niepoprawnych żądań dziennie z powodu zmian bit-flip dla różnych popularnych domen. Wiele z tych przerzutów bitów można by prawdopodobnie przypisać problemom sprzętowym, ale niektóre można by przypisać cząsteczkom alfa. Te błędy przerzucania bitów mogą być wykorzystywane przez złośliwe podmioty w postaci bitsquattingu .
Isaac Asimov otrzymał list z gratulacjami za przypadkowe przewidzenie błędów pamięci RAM cząstek alfa w powieści z lat pięćdziesiątych.
Promienie kosmiczne tworzące energetyczne neutrony i protony
Kiedy przemysł elektroniczny ustalił, jak kontrolować zanieczyszczenia opakowań, stało się jasne, że działają również inne przyczyny. James F. Ziegler kierował programem pracy w IBM , którego kulminacją była publikacja wielu artykułów (Ziegler i Lanford, 1979) wykazujących, że promienie kosmiczne mogą również powodować miękkie błędy. Rzeczywiście, w nowoczesnych urządzeniach główną przyczyną mogą być promienie kosmiczne. Chociaż pierwotna cząstka promieniowania kosmicznego na ogół nie dociera do powierzchni Ziemi, tworzy deszcz energetycznych cząstek wtórnych. Na powierzchni Ziemi około 95% cząstek zdolnych do powodowania miękkich błędów to energetyczne neutrony, a pozostała część składa się z protonów i pionów. w przypadku komputera stacjonarnego oczekiwano jednego błędu miesięcznie na 256 MiB pamięci RAM. Ten strumień energetycznych neutronów jest zwykle określany jako „promienie kosmiczne” w miękkiej literaturze błędów. Neutrony nie są naładowane i nie mogą samodzielnie zakłócać obwodu, ale ulegają wychwytowi neutronów przez jądro atomu w chipie. Proces ten może skutkować wytwarzaniem naładowanych cząstek wtórnych, takich jak cząstki alfa i jądra tlenu, które mogą następnie powodować miękkie błędy.
Strumień promieniowania kosmicznego zależy od wysokości. Dla wspólnej lokalizacji odniesienia 40,7° N, 74° W na poziomie morza ( Nowy Jork , NY, USA) strumień wynosi około 14 neutronów/cm 2 /godz. Zakopanie systemu w jaskini zmniejsza częstość miękkich błędów wywołanych promieniowaniem kosmicznym do znikomego poziomu. Na niższych poziomach atmosfery strumień wzrasta około 2,2-krotnie na każde 1000 m (1,3 na każde 1000 stóp) wzrostu wysokości nad poziomem morza. Komputery działające na szczytach gór doświadczają o rząd wielkości wyższego wskaźnika błędów miękkich w porównaniu z poziomem morza. Częstość sytuacji krytycznych w samolocie może być ponad 300 razy większy niż poziom morza. Kontrastuje to z miękkimi błędami wywołanymi rozpadem pakietu, które nie zmieniają się wraz z lokalizacją. Wraz ze wzrostem gęstości chipów Intel spodziewa się , że błędy powodowane przez promienie kosmiczne będą się zwiększać i staną się czynnikiem ograniczającym projektowanie.
Średni współczynnik miękkich błędów promieniowania kosmicznego jest odwrotnie proporcjonalny do aktywności plam słonecznych. Oznacza to, że średnia liczba miękkich błędów promieniowania kosmicznego maleje podczas aktywnej części cyklu plam słonecznych i wzrasta podczas cichej części. Ten sprzeczny z intuicją wynik występuje z dwóch powodów. Słońce na ogół nie wytwarza cząstek promieniowania kosmicznego o energii powyżej 1 GeV, które są w stanie przeniknąć do górnych warstw atmosfery ziemskiej i wytworzyć pęki cząstek, więc zmiany strumienia słonecznego nie wpływają bezpośrednio na liczbę błędów. Co więcej, wzrost strumienia słonecznego podczas aktywnego okresu słonecznego ma wpływ na zmianę kształtu ziemskiego pola magnetycznego, zapewniając dodatkową osłonę przed promieniami kosmicznymi o wyższej energii, co skutkuje zmniejszeniem liczby cząstek tworzących deszcze. W każdym razie efekt jest dość mały, co skutkuje ± 7% modulacją energetycznego strumienia neutronów w Nowym Jorku. Inne lokalizacje są podobnie dotknięte. [ potrzebne źródło ]
W jednym eksperymencie zmierzono, że poziom błędów miękkich na poziomie morza wyniósł 5950 awarii w czasie (FIT = awarie na miliard godzin) na chip DRAM. Kiedy ta sama konfiguracja testowa została przeniesiona do podziemnego skarbca, osłoniętego ponad 50 stopami (15 m) skały, która skutecznie wyeliminowała wszystkie promienie kosmiczne, zarejestrowano zero miękkich błędów. W tym teście wszystkie inne przyczyny miękkich błędów są zbyt małe, aby je zmierzyć, w porównaniu do poziomu błędów powodowanych przez promienie kosmiczne.
Energetyczne neutrony wytwarzane przez promieniowanie kosmiczne mogą stracić większość swojej energii kinetycznej i osiągnąć równowagę termiczną z otoczeniem, gdy są rozpraszane przez materiały. Powstałe neutrony są po prostu określane jako neutrony termiczne i mają średnią energię kinetyczną około 25 milielektronowoltów w temperaturze 25 ° C. Neutrony termiczne są również wytwarzane przez źródła promieniowania środowiskowego, takie jak rozpad naturalnie występującego uranu lub toru. Strumień neutronów termicznych ze źródeł innych niż pęki promieniowania kosmicznego może nadal być zauważalny w miejscu podziemnym i w istotny sposób przyczyniać się do miękkich błędów w niektórych obwodach.
Neutrony termiczne
Neutrony, które utraciły energię kinetyczną, dopóki nie znajdą się w równowadze termicznej z otoczeniem, są ważną przyczyną miękkich błędów w niektórych obwodach. Przy niskich energiach wiele wychwytu neutronów staje się znacznie bardziej prawdopodobnych i skutkuje rozszczepieniem niektórych materiałów, tworząc naładowane wtórne produkty rozszczepienia. W przypadku niektórych obwodów szczególnie ważne jest wychwytywanie neutronu termicznego przez jądro izotopu 10 B boru . Ta reakcja jądrowa jest wydajnym producentem cząstki alfa , jądra 7 Li i promienie gamma . Każda z naładowanych cząstek (alfa lub 7 Li) może spowodować miękki błąd, jeśli zostanie wyprodukowana w bardzo bliskiej odległości, około 5 µm , od krytycznego węzła obwodu. Przekrój przechwytywania dla 11 B jest o 6 rzędów wielkości mniejszy i nie przyczynia się do miękkich błędów.
Bor został zastosowany w BPSG , jako izolator w warstwach połączeń układów scalonych, szczególnie w warstwie najniższej. Włączenie boru obniża temperaturę topnienia szkła, zapewniając lepsze rozpływu i planaryzacji. W tym zastosowaniu szkło jest formułowane z zawartością boru od 4% do 5% wagowych. Naturalnie występujący bor to 20% 10 B, a pozostała część to izotop 11 B. Miękkie błędy są spowodowane wysokim poziomem 10 B w tej krytycznej dolnej warstwie niektórych starszych procesów układów scalonych. Bor-11, stosowany w niskich stężeniach jako domieszka typu p, nie przyczynia się do błędów miękkich. Producenci układów scalonych wyeliminowali borowane dielektryki do czasu, gdy rozmiar poszczególnych elementów obwodów zmniejszył się do 150 nm, głównie z powodu tego problemu.
W projektach krytycznych stosuje się zubożony bor — „składający się prawie wyłącznie z boru-11 —”, aby uniknąć tego efektu, a tym samym zmniejszyć poziom błędów miękkich. Bor-11 jest produktem ubocznym przemysłu jądrowego .
W zastosowaniach w medycznych urządzeniach elektronicznych ten miękki mechanizm błędów może być niezwykle ważny. Neutrony są wytwarzane podczas wysokoenergetycznej radioterapii raka przy użyciu energii wiązki fotonów powyżej 10 MeV. Te neutrony są moderowane, ponieważ są rozpraszane od sprzętu i ścian w pokoju zabiegowym, co powoduje, że strumień neutronów termicznych jest około 40 × 106 większy niż normalny strumień neutronów w środowisku. Ten wysoki strumień neutronów termicznych generalnie skutkuje bardzo wysokim odsetkiem miękkich błędów i wynikającymi z tego zaburzeniami obwodu.
Inne przyczyny
Miękkie błędy mogą być również spowodowane przypadkowym szumem lub problemami z integralnością sygnału , takimi jak przesłuch indukcyjny lub pojemnościowy . Jednak ogólnie źródła te mają niewielki udział w ogólnym wskaźniku błędów miękkich w porównaniu z efektami promieniowania.
Niektóre testy wykazały, że izolację komórek pamięci DRAM można obejść przez niezamierzone efekty uboczne specjalnie spreparowanych dostępów do sąsiednich komórek. Zatem dostęp do danych przechowywanych w pamięci DRAM powoduje, że komórki pamięci tracą swoje ładunki i wchodzą w interakcje elektryczne w wyniku dużej gęstości komórek we współczesnej pamięci, zmieniając zawartość pobliskich wierszy pamięci, które w rzeczywistości nie były adresowane w pierwotnym dostępie do pamięci. Efekt ten jest znany jako młot udarowy i był również używany w niektórych lukach w zabezpieczeniach komputerowych związanych z eskalacją uprawnień .
Projektowanie wokół miękkich błędów
Miękkie łagodzenie błędów
Projektant może podjąć próbę zminimalizowania liczby błędów miękkich poprzez rozważne zaprojektowanie urządzenia, wybór odpowiedniego półprzewodnika, materiałów obudowy i podłoża oraz odpowiedniej geometrii urządzenia. Często jest to jednak ograniczone koniecznością zmniejszenia rozmiaru urządzenia i napięcia, zwiększenia szybkości działania i zmniejszenia strat mocy. Podatność urządzeń na zakłócenia jest opisana w przemyśle za pomocą JEDEC JESD-89.
Jedną z technik, którą można zastosować w celu zmniejszenia miękkiego współczynnika błędów w obwodach cyfrowych, jest hartowanie radiacyjne . Wiąże się to ze zwiększeniem pojemności w wybranych węzłach obwodu w celu zwiększenia jego efektywnej wartości krytycznej Q wartość. Zmniejsza to zakres energii cząstek, do którego można zaburzyć wartość logiczną węzła. Hartowanie radiacyjne jest często osiągane poprzez zwiększenie rozmiaru tranzystorów, które dzielą obszar drenu/źródła w węźle. Ponieważ powierzchnia i moc narzutu utwardzania radiacyjnego mogą ograniczać projekt, technika ta jest często stosowana selektywnie do węzłów, co do których przewiduje się, że prawdopodobieństwo spowodowania miękkich błędów w przypadku uderzenia jest największe. Narzędzia i modele, które mogą przewidywać, które węzły są najbardziej podatne na ataki, są przedmiotem przeszłych i obecnych badań w obszarze błędów miękkich.
Wykrywanie błędów miękkich
Prowadzono prace nad usuwaniem miękkich błędów w zasobach procesora i pamięci przy użyciu technik zarówno sprzętowych, jak i programowych. Kilka prac badawczych dotyczyło miękkich błędów, proponując wykrywanie i odzyskiwanie błędów za pomocą redundantnej wielowątkowości sprzętowej. Podejścia te wykorzystywały specjalny sprzęt do replikacji wykonania aplikacji w celu zidentyfikowania błędów w danych wyjściowych, co zwiększyło złożoność projektu sprzętu i koszty, w tym wysokie koszty ogólne związane z wydajnością. Z drugiej strony, oparte na oprogramowaniu, miękkie schematy tolerancji błędów są elastyczne i mogą być stosowane w komercyjnych, gotowych mikroprocesorach. Wiele prac proponuje replikację instrukcji na poziomie kompilatora i sprawdzanie wyników w celu wykrywania błędów miękkich.
Korekta błędów miękkich
Projektanci mogą zaakceptować fakt, że wystąpią miękkie błędy, i zaprojektować systemy z odpowiednim wykrywaniem i korekcją błędów, aby móc je płynnie przywracać. Zazwyczaj konstrukcja pamięci półprzewodnikowej może wykorzystywać korekcję błędów w przód , włączając nadmiarowe dane do każdego słowa w celu utworzenia kodu korygującego błędy . Alternatywnie można zastosować korekcję błędów wycofywania, wykrywając błąd programowy za pomocą kodu wykrywającego błędy, takiego jak parzystość , i przepisując poprawne dane z innego źródła. Ta technika jest często używana w przypadku pamięci podręcznych z możliwością zapisu .
Miękkie błędy w obwodach logicznych są czasami wykrywane i korygowane przy użyciu technik projektowania odpornego na uszkodzenia . Często obejmują one użycie redundantnych obwodów lub obliczanie danych i zwykle odbywa się to kosztem powierzchni obwodu, zmniejszonej wydajności i/lub wyższego zużycia energii. Koncepcję potrójnej redundancji modułowej (TMR) można zastosować w celu zapewnienia bardzo wysokiej niezawodności błędów miękkich w obwodach logicznych. W tej technice trzy identyczne kopie obwodu obliczają równolegle te same dane, a wyjścia są podawane do logiki głosowania większościowego , zwracając wartość, która wystąpiła w co najmniej dwóch z trzech przypadków. W ten sposób awaria jednego obwodu z powodu błędu miękkiego jest odrzucana, zakładając, że pozostałe dwa obwody działają poprawnie. W praktyce jednak niewielu projektantów może sobie pozwolić na większy niż 200% obszar obwodu i wymagany narzut mocy, więc zwykle jest on stosowany tylko wybiórczo. Inną powszechną koncepcją korygowania błędów miękkich w obwodach logicznych jest redundancja czasowa (lub czasowa), w której jeden obwód wielokrotnie operuje na tych samych danych i porównuje kolejne oceny pod kątem spójności. Jednak takie podejście często wiąże się z obciążeniem wydajności, obciążeniem obszaru (jeśli kopie zatrzasków są używane do przechowywania danych) i obciążeniem zasilania, chociaż jest znacznie bardziej efektywne pod względem powierzchni niż redundancja modułowa.
Tradycyjnie najwięcej uwagi poświęcano pamięci DRAM w dążeniu do zmniejszenia lub obejścia błędów programowych, ze względu na fakt, że DRAM stanowi większość podatnej powierzchni urządzeń w systemach komputerowych komputerów stacjonarnych i serwerów (patrz rozpowszechnienie ECC RAM w komputerach serwerowych). Twarde dane dotyczące podatności DRAM są trudne do zdobycia i różnią się znacznie w zależności od projektów, procesów produkcyjnych i producentów. Technologia z lat 80. 256-kilobitowe pamięci DRAM mogą mieć skupiska pięciu lub sześciu bitów przerzucanych z pojedynczej cząstki alfa . Nowoczesne pamięci DRAM mają znacznie mniejsze rozmiary elementów, więc osadzanie się podobnej ilości ładunku może z łatwością spowodować odwrócenie znacznie większej liczby bitów.
W projektowaniu obwodów wykrywania i korekcji błędów pomaga fakt, że miękkie błędy są zwykle zlokalizowane na bardzo małym obszarze chipa. Zwykle dotyczy to tylko jednej komórki pamięci, chociaż zdarzenia o wysokiej energii mogą powodować rozstrój wielu komórek. Konwencjonalny układ pamięci zwykle umieszcza jeden bit wielu różnych słów korekcyjnych obok siebie na chipie. Tak więc nawet zdenerwowanie wielokomórkowe prowadzi tylko do kilku oddzielnych zdenerwowań jednobitowych w wielu słowach korekcyjnych, a nie do zdenerwowania wielobitowego jednym słowem korekty. Tak więc kod korygujący błędy musi poradzić sobie tylko z jednym bitem błędu w każdym słowie korekcji, aby poradzić sobie ze wszystkimi prawdopodobnymi błędami miękkimi. Termin „wielokomórkowy” jest używany w przypadku zakłóceń wpływających na wiele komórek pamięci, niezależnie od słów korekcyjnych, w które wpadają te komórki. „Wielobitowy” jest używany, gdy wiele bitów w jednym słowie korekcyjnym jest błędnych.
Miękkie błędy w logice kombinacyjnej
Trzy naturalne efekty maskowania w logice kombinacyjnej , które określają, czy pojedyncze zaburzenie zdarzenia (SEU) rozprzestrzeni się i stanie się miękkim błędem, to maskowanie elektryczne, maskowanie logiczne i maskowanie czasowe (lub okno czasowe). SEU jest logicznie maskowany , jeśli jego propagacja jest zablokowana przed osiągnięciem zatrzasku wyjściowego, ponieważ wejścia bramki poza ścieżką uniemożliwiają logiczne przejście wyjścia tej bramki. SEU jest maskowany elektrycznie jeśli sygnał jest tłumiony przez właściwości elektryczne bramek na jego ścieżce propagacji, tak że wynikowy impuls ma niewystarczającą wielkość, aby można go było niezawodnie zatrzasnąć. SEU jest czasowo maskowane , jeśli błędny impuls dociera do zatrzasku wyjściowego, ale nie pojawia się wystarczająco blisko momentu, w którym zatrzask jest faktycznie wyzwalany w celu utrzymania.
Jeśli wszystkie trzy efekty maskowania nie wystąpią, propagowany impuls zostaje zablokowany, a wyjście obwodu logicznego będzie błędną wartością. W kontekście działania obwodu, ta błędna wartość wyjściowa może być uważana za miękkie zdarzenie błędu. Jednak z punktu widzenia mikroarchitektury wynik, którego dotyczy problem, może nie zmienić wyniku aktualnie wykonywanego programu. Na przykład błędne dane mogą zostać nadpisane przed użyciem, zamaskowane w kolejnych operacjach logicznych lub po prostu nigdy nie zostać użyte. Jeśli błędne dane nie wpływają na wynik programu, jest to uważane za przykład maskowania mikroarchitektury .
Miękka stopa błędów
Stopa błędów miękkich (SER) to szybkość, z jaką urządzenie lub system napotyka lub przewiduje wystąpienie błędów miękkich. Zwykle jest wyrażany jako liczba awarii w czasie (FIT) lub średni czas między awariami (MTBF). Jednostką przyjętą do ilościowego określania awarii w czasie jest FIT, która odpowiada jednemu błądowi na miliard godzin pracy urządzenia. MTBF jest zwykle podawany w latach pracy urządzenia; patrząc z perspektywy, jeden FIT równa się około 1 000 000 000 / (24 × 365,25) = 114 077 razy dłuższym między błędami niż roczny MTBF.
Podczas gdy wiele systemów elektronicznych ma MTBF, który przekracza oczekiwany czas życia obwodu, SER może nadal być nie do przyjęcia dla producenta lub klienta. Na przykład można spodziewać się wielu awarii na milion obwodów z powodu błędów miękkich w terenie, jeśli system nie ma odpowiedniej ochrony przed błędami miękkimi. Awaria nawet kilku produktów w terenie, zwłaszcza katastrofalna, może nadszarpnąć reputację produktu i firmy, która go zaprojektowała. Ponadto w zastosowaniach krytycznych pod względem bezpieczeństwa lub kosztów, w których koszt awarii systemu znacznie przewyższa koszt samego systemu, 1% ryzyko awarii błędu programowego w całym okresie eksploatacji może być zbyt wysokie, aby klient mógł je zaakceptować. Dlatego korzystne jest projektowanie pod kątem niskiego SER podczas produkcji systemu na dużą skalę lub wymagającego wyjątkowo wysokiej niezawodności.
Zobacz też
Dalsza lektura
- Ziegler, JF; Lanford, Waszyngton (1979). „Wpływ promieni kosmicznych na pamięć komputera”. nauka . 206 (4420): 776–788. Bibcode : 1979Sci...206..776Z . doi : 10.1126/science.206.4420.776 . ISSN 0036-8075 . PMID 17820742 . S2CID 2000982 .
- Mukherjee, S., „Projektowanie architektury dla miękkich błędów”, Elsevier, Inc., luty 2008.
- Mukherjee, S., „Usterki komputerowe spowodowane błędami programowymi: problem z wieloma rozwiązaniami”, raport dotyczący mikroprocesorów, 19 maja 2008 r.
Linki zewnętrzne
- Soft Errors in Electronic Memory - A White Paper - Dobry dokument podsumowujący z wieloma odniesieniami - Tezzaron, styczeń 2004. Stwierdza, że 1000–5000 FIT na Mbit (0,2–1 błąd dziennie na GB) to typowy wskaźnik miękkich błędów DRAM.
- Korzyści z Chipkill-Correct ECC dla pamięci głównej serwera PC — Dyskusja na temat niezawodności SDRAM z 1997 r .
- Wpływ błędów miękkich na niezawodność systemu - Ritesh Mastipuram i Edwin C. Wee, Cypress Semiconductor, 2004
- Kwestie skalowania i technologii dla miękkich wskaźników błędów - Johnston - 4. doroczna konferencja badawcza na temat niezawodności Stanford University, październik 2000
- Ocena miękkich błędów LSI wywołanych przez ziemskie promienie kosmiczne i cząstki alfa — H. Kobayashi, K. Shiraishi, H. Tsuchiya, H. Usuki (wszyscy z Sony) i Y. Nagai, K. Takahisa (Uniwersytet w Osace), 2001.
- Witryna warsztatowa SELSE — witryna internetowa poświęcona warsztatom dotyczącym systemowych skutków błędów oprogramowania logicznego