Défaillance du disque dur

La défaillance d’un disque dur peut être catastrophique ou progressive. La première se présente généralement comme un disque qui ne peut plus être détecté par la configuration CMOS, ou qui ne passe pas le POST du BIOS, de sorte que le système d’exploitation ne le voit jamais. La défaillance progressive du disque dur peut être plus difficile à diagnostiquer, car ses symptômes, tels que des données corrompues et un ralentissement du PC (causé par des zones du disque dur qui tombent progressivement en panne et nécessitent des tentatives de lecture répétées avant d’être accessibles), peuvent être causés par de nombreux autres problèmes informatiques, tels que des logiciels malveillants. Un nombre croissant de secteurs défectueux peut être le signe d’un disque dur défaillant, mais comme le disque dur les ajoute automatiquement à sa propre table de défauts de croissance, ils peuvent ne pas devenir évidents pour des utilitaires tels que ScanDisk, à moins que l’utilitaire puisse les attraper avant que le système de gestion des défauts du disque dur ne le fasse, ou que les secteurs de sauvegarde gardés en réserve par le système de gestion des défauts du disque dur interne soient épuisés. Un schéma répétitif cyclique de l’activité de recherche, tel que des bruits rapides ou plus lents de recherche à la fin (clic de la mort), peut indiquer des problèmes de disque dur.

Zones d’atterrissage et technologie de chargement/déchargementEdit

Tête de lecture/écriture d’un disque dur Fujitsu 3,5″ datant d’environ 1998 (environ 2,0 mm x 3.0 mm)

Microphotographie d’une tête et d’un curseur de disque dur d’ancienne génération (années 1990)

.

Bruits d’un vieux disque dur lors d’une tentative de lecture de données sur des secteurs défectueux

Lors d’un fonctionnement normal, les têtes des disques durs volent au-dessus des données enregistrées sur les disques. Les disques durs modernes empêchent les coupures de courant ou d’autres dysfonctionnements de faire atterrir leurs têtes dans la zone de données, soit en déplaçant physiquement (en les garant) vers une zone d’atterrissage spéciale sur les plateaux qui n’est pas utilisée pour le stockage des données, soit en verrouillant physiquement les têtes dans une position suspendue (non chargée) soulevée des plateaux. Certains des premiers disques durs pour PC ne parquaient pas automatiquement les têtes lorsque l’alimentation était coupée prématurément et que les têtes se posaient sur les données. Dans certains autres premiers appareils, l’utilisateur exécutait un programme pour parquer manuellement les têtes.

Zones d’atterrissageEdit

Une zone d’atterrissage est une zone du plateau généralement proche de son diamètre intérieur (ID), où aucune donnée n’est stockée. Cette zone est appelée zone de démarrage/arrêt de contact (CSS). Les disques sont conçus de telle sorte que soit un ressort, soit, plus récemment, l’inertie de rotation des plateaux est utilisée pour parquer les têtes en cas de perte d’alimentation inattendue. Dans ce cas, le moteur de la broche agit temporairement comme un générateur, fournissant de l’énergie à l’actionneur.

La tension du ressort provenant du montage de la tête pousse constamment les têtes vers le plateau. Pendant que le disque tourne, les têtes sont supportées par un palier à air et ne subissent aucun contact physique ni aucune usure. Dans les lecteurs CSS, les curseurs portant les capteurs de tête (souvent appelés têtes) sont conçus pour survivre à un certain nombre d’atterrissages et de décollages de la surface du support, mais l’usure de ces composants microscopiques finit par avoir raison d’eux. La plupart des fabricants conçoivent les curseurs pour qu’ils survivent à 50 000 cycles de contact avant que le risque d’endommagement au démarrage ne dépasse 50 %. Toutefois, le taux de dégradation n’est pas linéaire : lorsqu’un disque est plus jeune et a subi moins de cycles de démarrage et d’arrêt, il a plus de chances de survivre au prochain démarrage qu’un disque plus ancien et plus ancien (car la tête traîne littéralement sur la surface du disque jusqu’à ce que le palier à air soit établi). Par exemple, la série de disques durs de bureau Seagate Barracuda 7200.10 est évaluée à 50 000 cycles de démarrage-arrêt, c’est-à-dire qu’aucune défaillance attribuée à l’interface tête-plateau n’a été observée avant au moins 50 000 cycles de démarrage-arrêt lors des tests.

Vers 1995, IBM a été le pionnier d’une technologie où une zone d’atterrissage sur le disque est réalisée par un processus laser de précision (Laser Zone Texture = LZT) produisant un ensemble de « bosses » lisses à l’échelle nanométrique dans une zone d’atterrissage, améliorant ainsi considérablement les performances de frottement et d’usure. Cette technologie est encore largement utilisée aujourd’hui, principalement dans les lecteurs de bureau et d’entreprise (3,5 pouces). En général, la technologie CSS peut être sujette à une augmentation du frottement (la tendance des têtes à coller à la surface du plateau), par exemple à la suite d’une augmentation de l’humidité. Un stictionnement excessif peut provoquer des dommages physiques au plateau et au curseur ou au moteur de broche.

DéchargementEdit

La technologie de chargement/déchargement repose sur le fait que les têtes sont soulevées des plateaux dans un endroit sûr, ce qui élimine totalement les risques d’usure et de stictionnement. Le premier RAMAC HDD et la plupart des premiers lecteurs de disques utilisaient des mécanismes complexes pour charger et décharger les têtes. Les disques durs modernes utilisent le chargement par rampe, introduit pour la première fois par Memorex en 1967, pour charger/décharger sur des « rampes » en plastique près du bord extérieur du disque.

Au sujet de la robustesse aux chocs, IBM a également créé une technologie pour sa gamme d’ordinateurs portables ThinkPad, appelée Active Protection System. Lorsqu’un mouvement soudain et brutal est détecté par l’accéléromètre intégré au Thinkpad, les têtes de disque dur internes se déchargent automatiquement pour réduire le risque de toute perte de données potentielle ou de défauts de rayures. Plus tard, Apple a également utilisé cette technologie dans sa gamme de PowerBook, iBook, MacBook Pro et MacBook, connue sous le nom de Sudden Motion Sensor. Sony, HP avec son HP 3D DriveGuard et Toshiba ont sorti une technologie similaire dans leurs ordinateurs portables.

Modes de défaillanceModification

Les disques durs peuvent tomber en panne de plusieurs façons. La défaillance peut être immédiate et totale, progressive ou limitée. Les données peuvent être totalement détruites, ou partiellement ou totalement récupérables.

Les premiers lecteurs avaient tendance à développer des secteurs défectueux avec l’utilisation et l’usure ; ces secteurs défectueux pouvaient être  » mappés  » pour ne pas être utilisés et ne pas affecter le fonctionnement d’un lecteur, et cela était considéré comme normal, sauf si de nombreux secteurs défectueux se développaient sur une courte période. Certains des premiers lecteurs avaient même un tableau fixé au boîtier du lecteur sur lequel les secteurs défectueux devaient être répertoriés au fur et à mesure de leur apparition. Les lecteurs plus récents éliminent automatiquement les secteurs défectueux, d’une manière invisible pour l’utilisateur ; un lecteur dont les secteurs sont réaffectés peut continuer à être utilisé. Les statistiques et les journaux disponibles par le biais de S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) fournissent des informations sur le remappage.

D’autres défaillances, qui peuvent être progressives ou limitées, sont généralement considérées comme une raison de remplacer un disque ; la valeur des données potentiellement en danger dépasse généralement de loin le coût économisé en continuant à utiliser un disque qui peut être défaillant. Des erreurs de lecture ou d’écriture répétées mais récupérables, des bruits inhabituels, un échauffement excessif et inhabituel, et d’autres anomalies, sont des signes d’alerte.

  • Crash de la tête : une tête peut entrer en contact avec le plateau en rotation suite à un choc mécanique ou pour une autre raison. Dans le meilleur des cas, cela provoque des dommages irréversibles et une perte de données à l’endroit où le contact a eu lieu. Dans le pire des cas, les débris raclés sur la zone endommagée peuvent contaminer toutes les têtes et tous les plateaux, et détruire toutes les données sur tous les plateaux. Si les dommages ne sont initialement que partiels, la rotation continue du disque peut étendre les dommages jusqu’à ce qu’ils soient totaux.
  • Mauvais secteurs : certains secteurs magnétiques peuvent devenir défectueux sans rendre l’ensemble du lecteur inutilisable. Il peut s’agir d’une occurrence limitée ou d’un signe de défaillance imminente.
  • Stiction : après un certain temps, la tête peut ne pas « décoller » au démarrage car elle a tendance à coller au plateau, un phénomène connu sous le nom de stiction. Ce phénomène est généralement dû à des propriétés de lubrification inadaptées de la surface du plateau, à un défaut de conception ou de fabrication plutôt qu’à l’usure. Cela s’est produit occasionnellement avec certains modèles jusqu’au début des années 1990.
  • Défaillance du circuit : les composants du circuit électronique peuvent tomber en panne, rendant le lecteur inopérant.
  • Défaillance des roulements et des moteurs : les moteurs électriques peuvent tomber en panne ou griller, et les roulements peuvent s’user suffisamment pour empêcher un bon fonctionnement.
  • Diverses défaillances mécaniques : les pièces, en particulier les pièces mobiles, de tout mécanisme peuvent se briser ou tomber en panne, empêchant le fonctionnement normal, avec d’éventuels autres dommages causés par des fragments.

Mesure des défaillancesModification

La plupart des principaux fournisseurs de disques durs et de cartes mères prennent en charge S.M.A.R.T, qui mesure les caractéristiques du lecteur telles que la température de fonctionnement, le temps de rotation, les taux d’erreur de données, etc. Certaines tendances et changements soudains dans ces paramètres sont considérés comme associés à une probabilité accrue de défaillance du disque et de perte de données. Cependant, les paramètres S.M.A.R.T. à eux seuls peuvent ne pas être utiles pour prédire les défaillances individuelles des lecteurs. Bien que plusieurs paramètres S.M.A.R.T. affectent la probabilité de défaillance, une grande partie des disques défaillants ne produisent pas de paramètres S.M.A.R.T. prédictifs. Une panne imprévisible peut se produire à tout moment dans le cadre d’une utilisation normale, avec une perte potentielle de toutes les données. La récupération de certaines, voire de toutes les données d’un disque endommagé est parfois, mais pas toujours, possible, et est normalement coûteuse.

Une étude de 2007 publiée par Google a suggéré une très faible corrélation entre les taux de défaillance et la température élevée ou le niveau d’activité. En effet, l’étude de Google indiquait que « l’une de nos principales constatations a été l’absence d’un modèle cohérent de taux de défaillance plus élevé pour les disques à température élevée ou pour les disques dont le niveau d’utilisation est plus élevé ». Les disques durs dont la température moyenne déclarée par le S.M.A.R.T. était inférieure à 27 °C (81 °F) présentaient des taux de défaillance plus élevés que les disques durs dont la température moyenne déclarée était la plus élevée, soit 50 °C (122 °F), des taux de défaillance au moins deux fois plus élevés que la plage de température optimale déclarée par le S.M.A.R.T., soit 36 °C (97 °F) à 47 °C (117 °F). La corrélation entre les fabricants, les modèles et le taux de défaillance était relativement forte. Les statistiques en la matière sont tenues très secrètes par la plupart des entités ; Google n’a pas établi de lien entre les noms des fabricants et les taux de défaillance, bien qu’il ait été révélé que Google utilise des disques Hitachi Deskstar dans certains de ses serveurs.

L’étude de 2007 de Google a révélé, sur la base d’un large échantillon de disques sur le terrain, que les taux de défaillance annualisés (AFR) réels pour les disques individuels allaient de 1,7 % pour les disques de la première année à plus de 8,6 % pour les disques de trois ans. Une étude similaire réalisée en 2007 à la CMU sur des disques d’entreprise a montré que le MTBF mesuré était 3 à 4 fois inférieur aux spécifications du fabricant, avec un AFR moyen estimé à 3 % sur 1 à 5 ans, sur la base des journaux de remplacement d’un grand échantillon de disques, et que les défaillances des disques durs étaient fortement corrélées dans le temps.

Une étude de 2007 sur les erreurs de secteur latentes (par opposition aux études ci-dessus sur les défaillances complètes de disques) a montré que 3,45 % de 1,5 million de disques ont développé des erreurs de secteur latentes sur 32 mois (3,15 % des disques nearline et 1,46 % des disques de classe entreprise ont développé au moins une erreur de secteur latente dans les douze mois suivant leur date d’expédition), le taux d’erreur de secteur annuel augmentant entre la première et la deuxième année. Les disques d’entreprise présentaient moins d’erreurs de secteur que les disques grand public. Le nettoyage en arrière-plan s’est avéré efficace pour corriger ces erreurs.

Les disques SSI, SAS et FC sont plus chers que les disques SATA de qualité grand public, et généralement utilisés dans les serveurs et les matrices de disques, là où les disques SATA étaient vendus au marché des ordinateurs personnels et de bureau et du stockage de proximité et étaient perçus comme moins fiables. Cette distinction s’estompe aujourd’hui.

Le temps moyen entre les défaillances (MTBF) des disques SATA est généralement spécifié à environ 1,2 million d’heures (certains disques tels que le Western Digital Raptor ont évalué le MTBF à 1,4 million d’heures), tandis que les disques SAS/FC sont évalués à plus de 1,6 million d’heures. Cependant, des recherches indépendantes indiquent que le MTBF n’est pas une estimation fiable de la longévité (durée de vie) d’un disque. Le MTBF est réalisé en laboratoire dans des chambres d’essai et constitue une mesure importante pour déterminer la qualité d’un disque dur, mais il est conçu pour mesurer uniquement le taux de défaillance relativement constant pendant la durée de vie du disque (le milieu de la « courbe en baignoire ») avant la phase d’usure finale. Une mesure plus interprétable, mais équivalente au MTBF, est le taux de défaillance annualisé (AFR). L’AFR est le pourcentage de pannes de disque prévues par an. L’AFR et le MTBF ont tous deux tendance à mesurer la fiabilité uniquement dans la partie initiale de la vie d’un disque dur sous-estimant ainsi la probabilité réelle de défaillance d’un disque utilisé.

La société de stockage en nuage Backblaze produit un rapport annuel sur la fiabilité des disques durs. Cependant, l’entreprise déclare qu’elle utilise principalement des disques grand public de base, qui sont déployés dans des conditions d’entreprise, plutôt que dans leurs conditions représentatives et pour l’usage auquel ils sont destinés. Les disques durs grand public ne sont pas non plus testés pour fonctionner avec des cartes RAID d’entreprise du type de celles utilisées dans un centre de données, et peuvent ne pas répondre dans le temps attendu par un contrôleur RAID ; ces cartes seront identifiées comme ayant échoué alors qu’elles ne l’ont pas fait. Le résultat des tests de ce type peut être pertinent ou non pour différents utilisateurs, car ils représentent précisément les performances des disques grand public dans l’entreprise ou sous un stress extrême, mais peuvent ne pas représenter précisément leurs performances dans une utilisation normale ou prévue.

Exemples de familles de disques avec des taux de défaillance élevésModification

  1. IBM 3380 DASD, 1984 ca.
  2. Mémoires d’ordinateurs Inc. Disque dur de 20 Mo pour PC/AT, 1985 environ.
  3. Fujitsu MPG3 et MPF3 series, 2002 ca.
  4. IBM Deskstar 75GXP, 2001 environ.
  5. Seagate ST3000DM001, 2012 ca.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *