Falha da unidade de disco rígido

A falha de uma unidade de disco rígido pode ser catastrófica ou gradual. A primeira apresenta-se tipicamente como uma unidade que já não pode ser detectada pela configuração CMOS, ou que falha em passar o POST da BIOS para que o sistema operativo nunca a veja. A falha gradual do disco rígido pode ser mais difícil de diagnosticar, porque os seus sintomas, tais como dados corrompidos e lentidão do PC (causados por falhas graduais nas áreas do disco rígido que requerem repetidas tentativas de leitura antes do acesso bem sucedido), podem ser causados por muitos outros problemas informáticos, tais como malware. Um número crescente de sectores defeituosos pode ser um sinal de falha do disco rígido, mas como o disco rígido os adiciona automaticamente à sua própria tabela de defeitos de crescimento, eles podem não se tornar evidentes para utilitários como o ScanDisk, a menos que o utilitário possa apanhá-los antes que o sistema de gestão de defeitos do disco rígido os apanhe, ou os sectores de backup mantidos em reserva pelo sistema interno de gestão de defeitos do disco rígido se esgotem. Um padrão cíclico repetitivo de actividade de procura, tal como ruídos de procura rápidos ou lentos (clique de morte), pode ser indicativo de problemas no disco rígido.

Zonas de aterragem e tecnologia de carga/descargaEdit

Cabeça de leitura/escrita de cerca de 1998 Fujitsu 3,5″ disco rígido (aprox. 2,0 mm x 3.0 mm)

Microfotografia de uma cabeça de disco rígido de geração mais antiga e de um botão deslizante (1990s)

Ruídos de um disco rígido antigo enquanto tentava ler dados de sectores defeituosos

Durante o funcionamento normal, cabeças em discos rígidos voam por cima dos dados gravados nos discos. Os discos rígidos modernos impedem interrupções de energia ou outras avarias de aterrar as suas cabeças na zona de dados, quer movendo fisicamente (estacionando) as cabeças para uma zona de aterragem especial nos pratos que não é utilizada para armazenamento de dados, quer bloqueando fisicamente as cabeças numa posição suspensa (descarregada) levantada dos pratos. Alguns primeiros discos rígidos de PC não estacionavam as cabeças automaticamente quando a energia era desligada prematuramente e as cabeças aterravam nos dados. Em algumas outras unidades iniciais o utilizador executava um programa para estacionar manualmente as cabeças.

Zonas de aterragemEditar

Uma zona de aterragem é uma área do prato geralmente próxima do seu diâmetro interior (ID), onde não são armazenados dados. Esta área chama-se zona de início/paragem de contacto (CSS). Os discos são concebidos de tal forma que uma mola ou, mais recentemente, uma inércia rotacional nas travessa é utilizada para estacionar as cabeças em caso de perda inesperada de energia. Neste caso, o motor do fuso actua temporariamente como gerador, fornecendo energia ao actuador.

Tensão da mola da montagem da cabeça empurra constantemente as cabeças para a travessa. Enquanto o disco está a girar, as cabeças são suportadas por um rolamento de ar e não sofrem qualquer contacto físico ou desgaste. Nas unidades de CSS, os cursores que transportam os sensores da cabeça (muitas vezes também chamados apenas cabeças) são concebidos para sobreviver a uma série de aterragens e descolagens da superfície do suporte, embora o desgaste destes componentes microscópicos acabe por ter a sua portagem. A maioria dos fabricantes concebem os deslizadores para sobreviverem a 50.000 ciclos de contacto antes que a hipótese de danos no arranque ultrapasse os 50%. Contudo, a taxa de decomposição não é linear: quando um disco é mais novo e teve menos ciclos de arranque-paragem, tem mais hipóteses de sobreviver ao próximo arranque do que um disco mais velho e de maior quilometragem (uma vez que a cabeça arrasta literalmente ao longo da superfície do disco até que o rolamento de ar seja estabelecido). Por exemplo, a série Seagate Barracuda 7200.10 de unidades de disco rígido de secretária está classificada em 50.000 ciclos de arranque-paragem, por outras palavras, não foram observadas falhas atribuídas à interface cabeça-platter antes de pelo menos 50.000 ciclos de arranque-paragem durante os testes.

Around 1995 A IBM foi pioneira numa tecnologia em que uma zona de aterragem no disco é feita por um processo laser de precisão (Laser Zone Texture = LZT) produzindo uma série de “solavancos” suaves à escala nanométrica numa zona de aterragem, melhorando assim enormemente o desempenho em termos de sticção e desgaste. Esta tecnologia é ainda hoje largamente utilizada, predominantemente em unidades de secretária e empresariais (3,5 polegadas). Em geral, a tecnologia CSS pode ser propensa a uma maior inclinação (a tendência para as cabeças aderirem à superfície do prato), por exemplo, como consequência do aumento da humidade. O excesso de stiction pode causar danos físicos na travessa e no motor do eixo.

DescargaEditar

Tecnologia de carga/descarga depende de as cabeças serem levantadas das traves para um local seguro, eliminando assim completamente os riscos de desgaste e stiction. O primeiro HDD RAMAC e a maioria das primeiras unidades de disco utilizavam mecanismos complexos para carregar e descarregar as cabeças. Os HDD modernos utilizam carregamento em rampa, introduzido pela Memorex pela primeira vez em 1967, para carregar/descarregar em “rampas” de plástico perto da borda externa do disco.

Articulação da robustez de choque, a IBM também criou uma tecnologia para a sua linha ThinkPad de computadores portáteis chamada Sistema de Protecção Activa. Quando um movimento brusco e brusco é detectado pelo acelerómetro incorporado no ThinkPad, as cabeças de disco rígido internas descarregam-se automaticamente para reduzir o risco de qualquer potencial perda de dados ou defeitos de arranhão. Mais tarde, a Apple também utilizou esta tecnologia no seu PowerBook, iBook, MacBook Pro, e MacBook line, conhecido como o Sensor de Movimento Súbito. Sony, HP com o seu HP 3D DriveGuard e Toshiba lançaram tecnologia semelhante nos seus computadores portáteis.

Modos de falhaEdit

Discos rígidos podem falhar de várias maneiras. A falha pode ser imediata e total, progressiva, ou limitada. Os dados podem ser totalmente destruídos, ou parcial ou totalmente recuperáveis.

As unidades mais antigas tinham tendência para desenvolver maus sectores com uso e desgaste; estes maus sectores podiam ser “mapeados” para que não fossem utilizados e não afectassem o funcionamento de uma unidade, e isto era considerado normal, a menos que muitos sectores maus se desenvolvessem num curto período de tempo. Algumas unidades iniciais tinham mesmo uma tabela anexa ao caso de uma unidade, na qual os sectores maus deviam ser listados tal como apareciam. As unidades mais tardias mapeiam automaticamente os sectores maus, de uma forma invisível para o utilizador; uma unidade com sectores refabricados pode continuar a ser utilizada. Estatísticas e registos disponíveis através da S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) fornecem informação sobre a refilmagem.

Outras falhas, que podem ser progressivas ou limitadas, são geralmente consideradas como motivo para substituir uma unidade; o valor dos dados potencialmente em risco geralmente ultrapassa largamente o custo poupado ao continuar a utilizar uma unidade que pode estar a falhar. Erros repetidos mas recuperáveis de leitura ou escrita, ruídos invulgares, aquecimento excessivo e invulgar, e outras anomalias, são sinais de aviso.

  • Colisão da cabeça: uma cabeça pode entrar em contacto com o prato rotativo devido a um choque mecânico ou outra razão. Na melhor das hipóteses, isto causará danos irreversíveis e perda de dados onde foi feito o contacto. Na pior das hipóteses, os detritos raspados na área danificada podem contaminar todas as cabeças e pratos, e destruir todos os dados em todos os pratos. Se os danos forem inicialmente apenas parciais, a rotação contínua da unidade pode prolongar os danos até serem totais.
  • Sectores danificados: alguns sectores magnéticos podem tornar-se defeituosos sem tornar a unidade inteira inutilizável. Isto pode ser uma ocorrência limitada ou um sinal de falha iminente.
  • Stiction: após algum tempo, a cabeça pode não “descolar” quando arranca, uma vez que tende a aderir à travessa, um fenómeno conhecido como stiction. Isto deve-se geralmente a propriedades de lubrificação inadequadas da superfície da travessa, a um defeito de concepção ou de fabrico, em vez de desgaste. Isto aconteceu ocasionalmente com alguns desenhos até ao início dos anos 90.
  • Falha do circuito: os componentes do circuito electrónico podem falhar tornando o accionamento inoperacional.
  • Rolamento e falha do motor: os motores eléctricos podem falhar ou queimar, e os rolamentos podem desgastar-se o suficiente para impedir o funcionamento correcto.
  • Falhas mecânicas diversas: peças, particularmente peças móveis, de qualquer mecanismo podem partir-se ou falhar, impedindo o funcionamento normal, com possíveis danos adicionais causados por fragmentos.

Métricas de falhasEditar

A maior parte dos principais fornecedores de discos rígidos e placas-mãe suportam S.M.A.R.T, que mede as características da unidade, tais como temperatura de funcionamento, tempo de spin-up, taxas de erro de dados, etc. Pensa-se que certas tendências e mudanças repentinas nestes parâmetros estão associadas a uma maior probabilidade de falha da unidade e perda de dados. Contudo, os parâmetros S.M.A.R.T. por si só podem não ser úteis para a previsão de falhas individuais da unidade. Enquanto vários parâmetros S.M.A.R.T. afectam a probabilidade de falha, uma grande fracção dos variadores de velocidade não produz parâmetros S.M.A.R.T. preditivos. Avarias imprevisíveis podem ocorrer a qualquer momento em utilização normal, com potencial perda de todos os dados. A recuperação de alguns ou mesmo de todos os dados de uma unidade danificada é por vezes, mas nem sempre possível, e é normalmente dispendiosa.

Um estudo de 2007 publicado pela Google sugeriu muito pouca correlação entre as taxas de falha e ou a temperatura elevada ou o nível de actividade. De facto, o estudo do Google indicou que “uma das nossas principais conclusões tem sido a falta de um padrão consistente de taxas de falha mais elevadas para unidades com temperaturas mais elevadas ou para essas unidades com níveis de utilização mais elevados”. Os discos rígidos com temperaturas médias comunicadas de S.M.A.R.T. inferiores a 27 °C (81 °F) tinham taxas de falha mais elevadas do que os discos rígidos com a temperatura média mais elevada comunicada de 50 °C (122 °F), taxas de falha pelo menos o dobro da gama de temperaturas óptimas comunicadas de S.M.A.R.T. de 36 °C (97 °F) a 47 °C (117 °F). A correlação entre fabricantes, modelos e a taxa de falhas foi relativamente forte. As estatísticas nesta matéria são mantidas altamente secretas pela maioria das entidades; a Google não relacionou os nomes dos fabricantes com as taxas de falhas, embora tenha sido revelado que a Google utiliza unidades Hitachi Deskstar em alguns dos seus servidores.

O estudo de 2007 da Google descobriu, com base numa grande amostra de campo de unidades, que as taxas reais de falhas anuais (AFRs) para unidades individuais variavam entre 1,7% para unidades do primeiro ano e mais de 8,6% para unidades com três anos de idade. Um estudo semelhante de 2007 na CMU sobre unidades empresariais mostrou que o MTBF medido era 3-4 vezes inferior à especificação do fabricante, com um AFR médio estimado de 3% ao longo de 1-5 anos com base em registos de substituição para uma grande amostra de unidades, e que as falhas do disco rígido estavam altamente correlacionadas no tempo.

Um estudo de 2007 sobre erros do sector latente (em oposição aos estudos acima referidos de falhas completas de discos) mostrou que 3,45% de 1,5 milhões de discos desenvolveram erros do sector latente durante 32 meses (3,15% de discos de quase linha e 1,46% de discos de classe empresarial desenvolveram pelo menos um erro do sector latente no prazo de doze meses a partir da data do seu navio), com a taxa anual de erro do sector a aumentar entre o primeiro e o segundo anos. As unidades empresariais apresentaram menos erros sectoriais do que as unidades de consumo. A depuração de fundo foi considerada eficaz na correcção destes erros.

SCSI, SAS, e unidades FC são mais caras do que as unidades SATA para consumidores, e normalmente utilizadas em servidores e matrizes de discos, onde as unidades SATA eram vendidas para o computador doméstico e para o mercado de armazenamento de secretária e próximo da linha e eram consideradas menos fiáveis. Esta distinção está agora a tornar-se difusa.

O tempo médio entre falhas (MTBF) das unidades SATA é normalmente especificado em cerca de 1,2 milhões de horas (algumas unidades como o Western Digital Raptor têm uma classificação de 1,4 milhões de horas MTBF), enquanto que as unidades SAS/FC têm uma classificação de mais de 1,6 milhões de horas. No entanto, investigações independentes indicam que o MTBF não é uma estimativa fiável da longevidade de uma unidade (vida útil). O MTBF é conduzido em ambientes de laboratório em câmaras de ensaio e é uma métrica importante para determinar a qualidade de uma unidade de disco, mas é concebido para medir apenas a taxa de falhas relativamente constante ao longo da vida útil da unidade (o meio da “curva da banheira”) antes da fase de desgaste final. Uma métrica mais interpretável, mas equivalente ao MTBF, é a taxa de falha anualizada (AFR). AFR é a percentagem de falhas da unidade esperada por ano. Tanto o AFR como o MTBF tendem a medir a fiabilidade apenas na parte inicial da vida útil de um disco rígido, subestimando assim a probabilidade real de falha de um disco usado.

A empresa de armazenamento em nuvem Backblaze produz um relatório anual sobre a fiabilidade do disco rígido. No entanto, a empresa afirma que utiliza principalmente unidades de consumo de mercadorias, que são implantadas em condições empresariais, em vez de nas suas condições representativas e para a sua utilização pretendida. As unidades de consumo também não são testadas para funcionar com placas RAID empresariais do tipo utilizado num centro de dados, e podem não responder no tempo que um controlador RAID espera; tais placas serão identificadas como tendo falhado quando não o fizeram. O resultado de testes deste tipo pode ser relevante ou irrelevante para diferentes utilizadores, uma vez que representam exactamente o desempenho das unidades de consumo na empresa ou sob extrema tensão, mas podem não representar exactamente o seu desempenho em uso normal ou pretendido.

Exemplo de famílias de unidades com altas taxas de falhasEditar

  1. IBM 3380 DASD, 1984 ca.
  2. Computer Memories Inc., 20MB HDD para PC/AT, 1985 ca.
  3. Fujitsu série MPG3 e MPF3, 2002 ca.
  4. IBM Deskstar 75GXP, 2001 ca.
  5. Seagate ST3000DM001, 2012 ca.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *