Fallo de la unidad de disco duro

El fallo de una unidad de disco duro puede ser catastrófico o gradual. El primero suele presentarse como una unidad que ya no puede ser detectada por la configuración del CMOS, o que no pasa la POST del BIOS, de modo que el sistema operativo nunca la ve. El fallo gradual del disco duro puede ser más difícil de diagnosticar, ya que sus síntomas, como los datos corruptos y la ralentización del PC (causada por las áreas del disco duro que fallan gradualmente y que requieren repetidos intentos de lectura antes de acceder con éxito), pueden estar causados por muchos otros problemas informáticos, como el malware. Un número creciente de sectores defectuosos puede ser un signo de que el disco duro está fallando, pero como el disco duro los añade automáticamente a su propia tabla de defectos de crecimiento, es posible que no sean evidentes para utilidades como ScanDisk, a menos que la utilidad pueda captarlos antes de que lo haga el sistema de gestión de defectos del disco duro, o que se agoten los sectores de reserva mantenidos por el sistema interno de gestión de defectos del disco duro. Un patrón cíclico repetitivo de la actividad de búsqueda, como los ruidos de búsqueda rápida o lenta (clic de la muerte), puede ser indicativo de problemas en el disco duro.

Zonas de aterrizaje y tecnología de carga/descargaEditar

Cabezal de lectura/escritura de disco duro Fujitsu de 3,5″ de circa-1998 (aprox. 2,0 mm x 3.0 mm)

Microfotografía de un cabezal y deslizador de disco duro de generación anterior (años 90)
Ruidos de un disco duro antiguo al intentar leer datos de sectores defectuosos

Durante el funcionamiento normal, los cabezales de los HDDs vuelan sobre los datos grabados en los discos. Los discos duros modernos evitan que las interrupciones de energía u otros fallos hagan aterrizar sus cabezas en la zona de datos, ya sea moviendo físicamente (aparcando) las cabezas a una zona de aterrizaje especial en los platos que no se utiliza para el almacenamiento de datos, o bloqueando físicamente las cabezas en una posición suspendida (sin carga) levantada de los platos. Algunos de los primeros discos duros para PC no aparcaban los cabezales automáticamente cuando se desconectaba prematuramente la alimentación y los cabezales aterrizaban sobre los datos. En algunas otras unidades tempranas el usuario ejecutaba un programa para aparcar los cabezales manualmente.

Zonas de aterrizajeEditar

Una zona de aterrizaje es un área del plato normalmente cerca de su diámetro interior (ID), donde no se almacenan datos. Esta zona se denomina zona de inicio/parada de contacto (CSS). Los discos están diseñados de forma que un muelle o, más recientemente, la inercia de rotación de los platos se utiliza para aparcar los cabezales en caso de pérdida inesperada de energía. En este caso, el motor del cabezal actúa temporalmente como generador, proporcionando energía al actuador.

La tensión del muelle del montaje del cabezal empuja constantemente los cabezales hacia el plato. Mientras el disco gira, los cabezales se apoyan en un cojinete de aire y no experimentan ningún contacto físico ni desgaste. En las unidades CSS, los deslizadores que llevan los sensores de los cabezales (a menudo llamados simplemente cabezales) están diseñados para sobrevivir a una serie de aterrizajes y despegues de la superficie del soporte, aunque el desgaste de estos componentes microscópicos acaba pasando factura. La mayoría de los fabricantes diseñan los deslizadores para que sobrevivan a 50.000 ciclos de contacto antes de que la probabilidad de que se dañen al arrancar supere el 50%. Sin embargo, la tasa de deterioro no es lineal: cuando un disco es más joven y ha tenido menos ciclos de arranque y parada, tiene más posibilidades de sobrevivir al siguiente arranque que un disco más antiguo y con más kilometraje (ya que el cabezal se arrastra literalmente por la superficie del disco hasta que se establece el cojinete de aire). Por ejemplo, las unidades de disco duro de sobremesa de la serie Barracuda 7200.10 de Seagate están clasificadas para 50.000 ciclos de arranque y parada, es decir, no se han observado fallos atribuidos a la interfaz cabezal-plato antes de al menos 50.000 ciclos de arranque y parada durante las pruebas.

Alrededor de 1995, IBM fue pionera en una tecnología en la que una zona de aterrizaje en el disco se realiza mediante un proceso láser de precisión (Laser Zone Texture = LZT) que produce una serie de «protuberancias» suaves a escala nanométrica en una zona de aterrizaje, mejorando así enormemente el rendimiento de la adherencia y el desgaste. Esta tecnología sigue utilizándose en gran medida hoy en día, sobre todo en las unidades de escritorio y de empresa (3,5 pulgadas). En general, la tecnología CSS puede ser propensa a un aumento de la adherencia (la tendencia de los cabezales a pegarse a la superficie del plato), por ejemplo, como consecuencia de un aumento de la humedad. Una pegajosidad excesiva puede causar daños físicos en el plato y en el motor del deslizador o del husillo.

DescargaEditar

La tecnología de carga/descarga se basa en que los cabezales se levantan de los platos en un lugar seguro, eliminando así los riesgos de desgaste y pegajosidad por completo. Los primeros discos duros RAMAC y la mayoría de las primeras unidades de disco utilizaban complejos mecanismos para cargar y descargar los cabezales. Los discos duros modernos utilizan la carga por rampa, introducida por primera vez por Memorex en 1967, para cargar/descargar en «rampas» de plástico cerca del borde exterior del disco.

Abordando la robustez ante los golpes, IBM también creó una tecnología para su línea de ordenadores portátiles ThinkPad llamada Sistema de Protección Activa. Cuando el acelerómetro incorporado en el Thinkpad detecta un movimiento brusco y repentino, los cabezales del disco duro interno se descargan automáticamente para reducir el riesgo de cualquier pérdida de datos o de arañazos. Posteriormente, Apple también utilizó esta tecnología en su línea de PowerBook, iBook, MacBook Pro y MacBook, conocida como Sudden Motion Sensor. Sony, HP con su HP 3D DriveGuard y Toshiba han lanzado una tecnología similar en sus ordenadores portátiles.

Modos de falloEditar

Los discos duros pueden fallar de varias maneras. El fallo puede ser inmediato y total, progresivo o limitado. Los datos pueden ser totalmente destruidos, o parcial o totalmente recuperables.

Las primeras unidades tenían una tendencia a desarrollar sectores defectuosos con el uso y el desgaste; estos sectores defectuosos podían ser «mapeados» para que no se utilizaran y no afectaran al funcionamiento de una unidad, y esto se consideraba normal a menos que se desarrollaran muchos sectores defectuosos en un corto período de tiempo. Algunas de las primeras unidades tenían incluso una tabla adjunta a la caja de la unidad en la que se enumeraban los sectores defectuosos a medida que aparecían. Las unidades posteriores asignan los sectores defectuosos automáticamente, de forma invisible para el usuario; una unidad con sectores reasignados puede seguir utilizándose. Las estadísticas y los registros disponibles a través de S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) proporcionan información sobre la reasignación.

Otros fallos, que pueden ser progresivos o limitados, suelen considerarse una razón para sustituir una unidad; el valor de los datos potencialmente en riesgo suele superar con creces el coste que se ahorra al seguir utilizando una unidad que puede estar fallando. Los errores de lectura o escritura repetidos pero recuperables, los ruidos inusuales, el calentamiento excesivo e inusual y otras anomalías son señales de advertencia.

  • Choque del cabezal: un cabezal puede entrar en contacto con el plato giratorio debido a un choque mecánico o a otra razón. En el mejor de los casos, esto causará daños irreversibles y la pérdida de datos donde se produjo el contacto. En el peor de los casos, los restos que se desprenden de la zona dañada pueden contaminar todos los cabezales y platos, y destruir todos los datos de todos los platos. Si el daño es inicialmente sólo parcial, la rotación continua de la unidad puede extender el daño hasta que sea total.
  • Sectores defectuosos: algunos sectores magnéticos pueden resultar defectuosos sin que toda la unidad quede inutilizada. Esto puede ser una ocurrencia limitada o una señal de fallo inminente.
  • Estancamiento: después de un tiempo, el cabezal puede no «despegar» cuando se pone en marcha ya que tiende a pegarse al plato, un fenómeno conocido como pegajosidad. Esto suele deberse a unas propiedades de lubricación inadecuadas de la superficie del plato, a un defecto de diseño o de fabricación más que al desgaste. Esto ocurría ocasionalmente con algunos diseños hasta principios de la década de 1990.
  • Fallo de los circuitos: los componentes de los circuitos electrónicos pueden fallar haciendo que la unidad no funcione.
  • Fallo de los rodamientos y del motor: los motores eléctricos pueden fallar o quemarse, y los rodamientos pueden desgastarse lo suficiente como para impedir su correcto funcionamiento.
  • Fallos mecánicos diversos: las piezas, especialmente las móviles, de cualquier mecanismo pueden romperse o fallar, impidiendo el funcionamiento normal, con posibles daños adicionales causados por los fragmentos.
    • Métricas de fallosEditar

      La mayoría de los principales proveedores de discos duros y placas base admiten S.M.A.R.T, que mide características de la unidad como la temperatura de funcionamiento, el tiempo de giro, las tasas de error de datos, etc. Se cree que ciertas tendencias y cambios repentinos en estos parámetros están asociados a una mayor probabilidad de fallo de la unidad y de pérdida de datos. Sin embargo, los parámetros S.M.A.R.T. por sí solos pueden no ser útiles para predecir los fallos individuales de las unidades. Aunque varios parámetros S.M.A.R.T. afectan a la probabilidad de fallo, una gran parte de las unidades que fallan no producen parámetros S.M.A.R.T. predictivos. Una avería imprevisible puede producirse en cualquier momento durante el uso normal, con la posible pérdida de todos los datos. La recuperación de algunos o incluso todos los datos de una unidad dañada es a veces, pero no siempre posible, y normalmente es costosa.

      Un estudio de 2007 publicado por Google sugería muy poca correlación entre las tasas de fallo y la alta temperatura o el nivel de actividad. De hecho, el estudio de Google indicaba que «uno de nuestros principales hallazgos ha sido la falta de un patrón consistente de tasas de fallo más altas para las unidades de mayor temperatura o para aquellas unidades con niveles de utilización más altos». Las unidades de disco duro con temperaturas medias notificadas por el S.M.A.R.T. inferiores a 27 °C (81 °F) presentaban tasas de fallo más elevadas que las unidades de disco duro con la temperatura media más alta notificada de 50 °C (122 °F), tasas de fallo que duplicaban como mínimo el rango de temperatura óptimo notificado por el S.M.A.R.T. de 36 °C (97 °F) a 47 °C (117 °F). La correlación entre los fabricantes, los modelos y la tasa de fallos era relativamente fuerte. Las estadísticas en esta materia se mantienen en alto secreto por la mayoría de las entidades; Google no relacionó los nombres de los fabricantes con las tasas de fallos, aunque se ha revelado que Google utiliza unidades Hitachi Deskstar en algunos de sus servidores.

      El estudio de Google de 2007 descubrió, basándose en una gran muestra de campo de unidades, que las tasas reales de fallos anualizados (AFR) de las unidades individuales oscilaban entre el 1,7% de las unidades del primer año y más del 8,6% de las unidades de tres años. Un estudio similar realizado en 2007 en la CMU sobre las unidades de disco de las empresas demostró que el MTBF medido era de 3 a 4 veces inferior a la especificación del fabricante, con una media estimada del 3% de AFR a lo largo de 1 a 5 años basada en los registros de sustitución de una gran muestra de unidades, y que los fallos de los discos duros estaban muy correlacionados en el tiempo.

      Un estudio de 2007 sobre los errores de sectores latentes (a diferencia de los estudios anteriores sobre los fallos completos de los discos) mostró que el 3,45% de 1,5 millones de discos desarrollaron errores de sectores latentes durante 32 meses (el 3,15% de los discos nearline y el 1,46% de los discos de clase empresarial desarrollaron al menos un error de sector latente en los doce meses siguientes a su fecha de envío), y que la tasa anual de errores de sectores aumentó entre el primer y el segundo año. Los discos para empresas mostraron menos errores de sector que los de consumo. La depuración en segundo plano resultó eficaz para corregir estos errores.

      Las unidadesSCSI, SAS y FC son más caras que las unidades SATA de consumo, y suelen utilizarse en servidores y matrices de discos, mientras que las unidades SATA se vendían para el mercado de ordenadores domésticos y de sobremesa y de almacenamiento cercano a la línea y se consideraban menos fiables. Esta distinción se está desdibujando.

      El tiempo medio entre fallos (MTBF) de las unidades SATA suele especificarse en torno a 1,2 millones de horas (algunas unidades, como la Western Digital Raptor, tienen un MTBF de 1,4 millones de horas), mientras que las unidades SAS/FC están clasificadas para más de 1,6 millones de horas. Sin embargo, investigaciones independientes indican que el MTBF no es una estimación fiable de la longevidad (vida útil) de una unidad. El MTBF se lleva a cabo en entornos de laboratorio en cámaras de prueba y es una métrica importante para determinar la calidad de una unidad de disco, pero está diseñado para medir únicamente la tasa de fallos relativamente constante durante la vida útil de la unidad (la mitad de la «curva de la bañera») antes de la fase de desgaste final. Una métrica más interpretable, pero equivalente al MTBF, es la tasa de fallos anualizada (AFR). El AFR es el porcentaje de fallos de la unidad esperados por año. Tanto el AFR como el MTBF tienden a medir la fiabilidad sólo en la parte inicial de la vida de una unidad de disco duro, subestimando así la probabilidad real de fallo de una unidad usada.

      La empresa de almacenamiento en la nube Backblaze elabora un informe anual sobre la fiabilidad de los discos duros. Sin embargo, la empresa afirma que utiliza principalmente discos de consumo básicos, que se utilizan en condiciones empresariales, en lugar de en sus condiciones representativas y para su uso previsto. Las unidades de consumo tampoco se prueban para que funcionen con tarjetas RAID empresariales del tipo utilizado en un centro de datos, y pueden no responder en el tiempo que espera un controlador RAID; dichas tarjetas se identificarán como que han fallado cuando no es así. El resultado de las pruebas de este tipo puede ser relevante o irrelevante para diferentes usuarios, ya que representan con exactitud el rendimiento de las unidades de consumo en la empresa o bajo estrés extremo, pero pueden no representar con exactitud su rendimiento en el uso normal o previsto.

      Ejemplo de familias de unidades con altas tasas de falloEditar

  1. IBM 3380 DASD, 1984 ca.
  2. Computer Memories Inc. 20MB HDD para PC/AT, 1985 ca.
  3. Serie MPG3 y MPF3 de Fujitsu, 2002 ca.
  4. IBM Deskstar 75GXP, 2001 ca.
  5. Seagate ST3000DM001, 2012 ca.
          • Seagate ST3000DM001, 2012 ca.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *