Guasto del disco rigido

Il guasto di un disco rigido può essere catastrofico o graduale. Il primo si presenta tipicamente come un’unità che non può più essere rilevata dalla configurazione CMOS, o che non riesce a passare il POST del BIOS in modo che il sistema operativo non lo veda mai. Il guasto graduale del disco rigido può essere più difficile da diagnosticare, perché i suoi sintomi, come i dati corrotti e il rallentamento del PC (causato da aree del disco rigido che gradualmente falliscono e richiedono ripetuti tentativi di lettura prima di accedere con successo), può essere causato da molti altri problemi del computer, come il malware. Un numero crescente di settori danneggiati può essere un segno di un disco rigido in avaria, ma poiché il disco rigido li aggiunge automaticamente alla sua tabella dei difetti di crescita, potrebbero non diventare evidenti a utility come ScanDisk, a meno che l’utility non riesca a catturarli prima che lo faccia il sistema di gestione dei difetti del disco rigido, o i settori di backup tenuti in riserva dal sistema interno di gestione dei difetti del disco rigido si esauriscano. Un modello ciclico ripetitivo di attività di ricerca, come rumori di seek-to-end rapidi o più lenti (click della morte) può essere indicativo di problemi del disco rigido.

Zone di atterraggio e tecnologia di caricamento/scaricamentoModifica

Testina di lettura/scrittura di un hard disk Fujitsu 3.5″ del 1998 circa (circa 2.0 mm x 3.0 mm)

Microfotografia di una testina e di uno slider di un hard disk di vecchia generazione (anni 90)

Rumori di un vecchio hard disk durante il tentativo di leggere dati da settori danneggiati

Durante il normale funzionamento, le testine degli HDD volano sopra i dati registrati sui dischi. Gli HDD moderni impediscono che interruzioni di corrente o altri malfunzionamenti facciano atterrare le testine nella zona dei dati spostando fisicamente (parcheggiando) le testine in una speciale zona di atterraggio sui piatti che non è usata per la memorizzazione dei dati, o bloccando fisicamente le testine in una posizione sospesa (non caricata) sollevata dai piatti. Alcuni dei primi HDD per PC non parcheggiavano automaticamente le testine quando l’alimentazione veniva prematuramente scollegata e le testine atterravano sui dati. In alcune altre prime unità l’utente doveva eseguire un programma per parcheggiare manualmente le testine.

Zone di atterraggioModifica

Una zona di atterraggio è un’area del piatto di solito vicino al suo diametro interno (ID), dove non vengono memorizzati dati. Quest’area è chiamata zona di Contact Start/Stop (CSS). I dischi sono progettati in modo tale che una molla o, più recentemente, l’inerzia rotazionale nei piatti è usata per parcheggiare le testine in caso di perdita di potenza inaspettata. In questo caso, il motore del mandrino agisce temporaneamente come un generatore, fornendo energia all’attuatore.

La tensione della molla dal montaggio della testina spinge costantemente le testine verso il piatto. Mentre il disco gira, le testine sono supportate da un cuscinetto ad aria e non sperimentano alcun contatto fisico o usura. Nelle unità CSS i cursori che portano i sensori della testina (spesso chiamati anche solo testine) sono progettati per sopravvivere a un certo numero di atterraggi e decolli dalla superficie del supporto, anche se l’usura di questi componenti microscopici alla fine richiede il suo pedaggio. La maggior parte dei produttori progetta i cursori per sopravvivere a 50.000 cicli di contatto prima che la possibilità di danni all’avvio salga oltre il 50%. Tuttavia, il tasso di decadimento non è lineare: quando un disco è più giovane e ha avuto meno cicli di start-stop, ha più possibilità di sopravvivere all’avvio successivo rispetto a un disco più vecchio e con più chilometraggio (poiché la testina si trascina letteralmente lungo la superficie del disco finché il cuscinetto d’aria non si stabilisce). Per esempio, la serie di hard disk desktop Barracuda 7200.10 di Seagate è valutata fino a 50.000 cicli start-stop, in altre parole nessun guasto attribuito all’interfaccia testa-piatto è stato visto prima di almeno 50.000 cicli start-stop durante i test.

Intorno al 1995 IBM ha sperimentato una tecnologia in cui una zona di atterraggio sul disco è fatta da un processo laser di precisione (Laser Zone Texture = LZT) che produce una serie di “urti” lisci su scala nanometrica in una zona di atterraggio, migliorando così enormemente le prestazioni di stiction e usura. Questa tecnologia è ancora largamente in uso oggi, prevalentemente in unità desktop ed enterprise (3,5 pollici). In generale, la tecnologia CSS può essere soggetta ad un aumento dell’attrito (la tendenza delle testine ad attaccarsi alla superficie del piatto), ad esempio come conseguenza di un aumento dell’umidità. Un’eccessiva attrito può causare danni fisici al piatto e al motore del cursore o del mandrino.

ScaricoModifica

La tecnologia di carico/scarico si basa sul sollevamento delle testine dai piatti in una posizione sicura, eliminando così del tutto i rischi di usura e attrito. Il primo HDD RAMAC e la maggior parte delle prime unità disco usavano meccanismi complessi per caricare e scaricare le testine. Gli HDD moderni usano il caricamento a rampa, introdotto per la prima volta da Memorex nel 1967, per caricare/scaricare su “rampe” di plastica vicino al bordo esterno del disco.

Alla ricerca della robustezza agli urti, IBM ha anche creato una tecnologia per la sua linea ThinkPad di computer portatili chiamata Active Protection System. Quando un movimento improvviso e brusco viene rilevato dall’accelerometro incorporato nel Thinkpad, le testine interne del disco rigido si scaricano automaticamente per ridurre il rischio di qualsiasi potenziale perdita di dati o difetti di graffi. Apple in seguito ha anche utilizzato questa tecnologia nei suoi PowerBook, iBook, MacBook Pro, e la linea MacBook, conosciuta come Sudden Motion Sensor. Sony, HP con il suo HP 3D DriveGuard e Toshiba hanno rilasciato una tecnologia simile nei loro computer notebook.

Modi di fallimentoModifica

I dischi rigidi possono fallire in diversi modi. Il guasto può essere immediato e totale, progressivo o limitato. I dati possono essere totalmente distrutti, o parzialmente o totalmente recuperabili.

I primi dischi avevano la tendenza a sviluppare settori difettosi con l’uso e l’usura; questi settori difettosi potevano essere “mappati” in modo da non essere usati e non influenzare il funzionamento di un disco, e questo era considerato normale a meno che non si sviluppassero molti settori difettosi in un breve periodo di tempo. Alcune delle prime unità avevano persino una tabella allegata al case dell’unità sulla quale i settori danneggiati dovevano essere elencati man mano che apparivano. Le unità successive mappano i settori danneggiati automaticamente, in un modo invisibile all’utente; un’unità con settori rimappati può continuare ad essere usata. Le statistiche e i log disponibili tramite S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) forniscono informazioni sulla rimappatura.

Altri guasti, che possono essere progressivi o limitati, sono di solito considerati un motivo per sostituire un’unità; il valore dei dati potenzialmente a rischio di solito supera di gran lunga il costo risparmiato continuando a usare un’unità che potrebbe essere in avaria. Errori di lettura o scrittura ripetuti ma recuperabili, rumori insoliti, riscaldamento eccessivo e insolito e altre anomalie sono segnali di avvertimento.

  • Crollo della testina: una testina può entrare in contatto con il piatto rotante a causa di uno shock meccanico o per altri motivi. Nel migliore dei casi questo causerà danni irreversibili e perdita di dati dove c’è stato il contatto. Nel peggiore dei casi i detriti raschiati dall’area danneggiata possono contaminare tutte le testine e i piatti, e distruggere tutti i dati su tutti i piatti. Se il danno è inizialmente solo parziale, la rotazione continua dell’unità può estendere il danno fino a renderlo totale.
  • Settori difettosi: alcuni settori magnetici possono diventare difettosi senza rendere l’intero drive inutilizzabile. Questo può essere un evento limitato o un segno di guasto imminente.
  • Stiction: dopo un certo tempo la testina può non “decollare” quando viene avviata perché tende ad attaccarsi al piatto, un fenomeno noto come stiction. Questo è solitamente dovuto a proprietà di lubrificazione inadeguate della superficie del piatto, un difetto di progettazione o di fabbricazione piuttosto che all’usura. Questo accadeva occasionalmente con alcuni design fino ai primi anni ’90.
  • Guasto del circuito: i componenti del circuito elettronico possono guastarsi rendendo il drive inutilizzabile.
  • Guasto dei cuscinetti e del motore: i motori elettrici possono guastarsi o bruciarsi, e i cuscinetti possono usurarsi abbastanza da impedire il corretto funzionamento.
  • Guasti meccanici vari: le parti, in particolare quelle mobili, di qualsiasi meccanismo possono rompersi o guastarsi, impedendo il normale funzionamento, con possibili ulteriori danni causati da frammenti.

Metriche dei guastiModifica

La maggior parte dei principali fornitori di hard disk e schede madri supporta lo S.M.A.R.T, che misura le caratteristiche dell’unità come la temperatura di funzionamento, il tempo di rotazione, i tassi di errore dei dati, ecc. Alcune tendenze e cambiamenti improvvisi in questi parametri sono pensati per essere associati a una maggiore probabilità di guasto dell’unità e perdita di dati. Tuttavia, i parametri S.M.A.R.T. da soli potrebbero non essere utili per prevedere i guasti delle singole unità. Mentre diversi parametri S.M.A.R.T. influenzano la probabilità di guasto, una grande frazione di unità guaste non produce parametri S.M.A.R.T. predittivi. Un guasto imprevedibile può verificarsi in qualsiasi momento durante il normale utilizzo, con la potenziale perdita di tutti i dati. Il recupero di alcuni o anche di tutti i dati da un’unità danneggiata è talvolta, ma non sempre possibile, ed è normalmente costoso.

Uno studio del 2007 pubblicato da Google ha suggerito una scarsa correlazione tra i tassi di guasto e l’alta temperatura o il livello di attività. Infatti, lo studio di Google ha indicato che “una delle nostre scoperte chiave è stata la mancanza di un modello coerente di tassi di guasto più elevati per le unità a temperatura più elevata o per quelle unità a livelli di utilizzo più elevati”. I dischi rigidi con temperature medie riferite da S.M.A.R.T. inferiori a 27 °C (81 °F) hanno avuto tassi di guasto più elevati rispetto ai dischi rigidi con la temperatura media più alta riferita di 50 °C (122 °F), tassi di guasto almeno doppi rispetto all’intervallo di temperatura ottimale riferito da S.M.A.R.T. di 36 °C (97 °F) a 47 °C (117 °F). La correlazione tra produttori, modelli e tasso di fallimento era relativamente forte. Le statistiche in questa materia sono tenute altamente segrete dalla maggior parte delle entità; Google non ha messo in relazione i nomi dei produttori con i tassi di fallimento, anche se è stato rivelato che Google usa unità Hitachi Deskstar in alcuni dei suoi server.

Lo studio di Google del 2007 ha trovato, sulla base di un ampio campione di unità, che i tassi reali di fallimento annualizzato (AFR) per le singole unità variavano dall’1,7% per le unità del primo anno a oltre l’8,6% per le unità di tre anni. Uno studio simile del 2007 alla CMU sulle unità aziendali ha mostrato che l’MTBF misurato era 3-4 volte inferiore alle specifiche del produttore, con un AFR medio stimato del 3% su 1-5 anni basato su registri di sostituzione per un ampio campione di unità, e che i guasti delle unità disco erano altamente correlati nel tempo.

Uno studio del 2007 sugli errori dei settori latenti (in contrapposizione agli studi di cui sopra sui guasti completi dei dischi) ha mostrato che il 3,45% di 1,5 milioni di dischi ha sviluppato errori dei settori latenti nell’arco di 32 mesi (il 3,15% dei dischi nearline e l’1,46% dei dischi di classe enterprise ha sviluppato almeno un errore del settore latente entro dodici mesi dalla data di spedizione), con un tasso annuale di errori di settore che aumenta tra il primo e il secondo anno. I dischi enterprise hanno mostrato meno errori di settore rispetto ai dischi consumer. Le unità SCSI, SAS e FC sono più costose delle unità SATA di livello consumer, e di solito sono utilizzate nei server e nei disk array, mentre le unità SATA sono state vendute al mercato dei computer domestici, dei desktop e dello storage near-line e sono state percepite come meno affidabili. Questa distinzione sta ora diventando confusa.

Il tempo medio tra i guasti (MTBF) delle unità SATA è solitamente specificato per essere di circa 1,2 milioni di ore (alcune unità come Western Digital Raptor hanno valutato 1,4 milioni di ore MTBF), mentre le unità SAS/FC sono valutate per oltre 1,6 milioni di ore. Tuttavia, una ricerca indipendente indica che l’MTBF non è una stima affidabile della longevità di un’unità (vita utile). L’MTBF è condotto in ambienti di laboratorio in camere di prova ed è una metrica importante per determinare la qualità di un’unità disco, ma è progettato per misurare solo il tasso di guasto relativamente costante durante la vita utile dell’unità (la metà della “curva della vasca da bagno”) prima della fase finale di usura. Una metrica più interpretabile, ma equivalente al MTBF è il tasso di guasto annualizzato (AFR). AFR è la percentuale di guasti dell’unità prevista per anno. Sia AFR che MTBF tendono a misurare l’affidabilità solo nella parte iniziale della vita di un disco rigido, sottovalutando così la reale probabilità di fallimento di un disco usato.

La società di cloud storage Backblaze produce un rapporto annuale sull’affidabilità del disco rigido. Tuttavia, l’azienda afferma che utilizza principalmente dischi di consumo, che sono distribuiti in condizioni aziendali, piuttosto che nelle loro condizioni rappresentative e per l’uso previsto. I dischi di consumo non sono anche testati per funzionare con schede RAID aziendali del tipo usato in un data center, e possono non rispondere nel tempo che un controller RAID si aspetta; tali schede saranno identificate come guaste quando non lo sono. Il risultato di test di questo tipo può essere rilevante o irrilevante per utenti diversi, poiché rappresenta accuratamente le prestazioni delle unità consumer in azienda o sotto stress estremo, ma potrebbe non rappresentare accuratamente le loro prestazioni nell’uso normale o previsto.

Esempi di famiglie di unità con alti tassi di guastoModifica

  1. IBM 3380 DASD, 1984 circa.
  2. Computer Memories Inc. 20MB HDD per PC/AT, 1985 circa.
  3. Fujitsu serie MPG3 e MPF3, 2002 circa.
  4. IBM Deskstar 75GXP, 2001 circa.
  5. Seagate ST3000DM001, 2012 circa.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *