(modifié le 21 septembre 2015 à 21:39)

Que ceux qui n'ont pas encore de NAS Synology à la maison (ou en entreprise) lèvent la main ?

etat-raid-synology

Votre NAS fonctionne très bien, parfait. Mais il ne faut pas oublier la présence d'un composant particulièrement sensible à l'usure : le disque dur et son état de santé SMART associé.

Je vous propose une analyse détaillée de la situation actuelle de mon NAS Synology, ainsi qu'un petit rappel sur le meilleur choix entre RAID-5 et RAID-6.

Bon ne veut pas dire que tout va bien

L'état du système est affiché dans DSM, mais il ne faut se fier uniquement à ceci.

Les disques dur sont des éléments mécaniques sensibles à la vieillesse, aux chocs et aux températures. Un certain nombre de disques dur sortent de l'usine et tombent en panne dans les mois qui suivent. On ne sait pas vraiment pourquoi en tant qu'utilisateur mais cela dépend des méthodes de fabrication des différents constructeurs.

Test de santé

Vous devez activer la vérification de vos disques.

planificateur-de-test

Je vous conseille de configurer :

  • un test rapide des disques dur chaque semaine
  • un test étendu des disques dur 2 fois par an

Rendez-vous dans le Gestionnaire de stockage > HDD/SSD > Planificateur de test > créer.

test-rapide-general

test-rapide-programmerAjouter ensuite deux tests étendus sur tous les disques, le premier pour le 1er Avril et le second pour le 1er Septembre :

test-etendu-programmer

Enfin dans HDD/SSD > Général cocher "Envoyez un rapport de santé mensuel du disque par email".

Dans mon cas voici ce que j'ai reçu avec un NAS est équipé de 4 disques dur Seagate ST3000DM001 :

Disque 1:
Nombre de reconnexions au disque 0
Nombre de mauvais secteurs 0
Nombre de ré-identifications du disque 0

Disque 2:
Nombre de reconnexions au disque 0
Nombre de mauvais secteurs 0
Nombre de ré-identifications du disque 0

Disque 3:
Nombre de reconnexions au disque 0
Nombre de mauvais secteurs 0
Nombre de ré-identifications du disque 0

Disque 4:
Nombre de reconnexions au disque 0
Nombre de mauvais secteurs 360
Nombre de ré-identifications du disque 0

A ne pas lire trop vite... car je ne m'en pas suis aperçu tout de suite en ayant l'habitude de ne voir que des zéro et d'effacer machinalement le mail. Sauf que le disque 4 lui a des soucis avec 360 secteurs défectueux.

Analyser un défaut

Avoir des secteurs défectueux sur un disque dur n'est pas un problème, le disque dispose de secteur de réserve pour remplacer ceux qui tomberaient en panne. Il se peut très bien que des secteurs soient situés dans une zone lointaine du disque pour que SMART vous envoie une alerte. D'où l'intérêt de faire des tests rapides mais aussi étendus du disque pour balayer tous les potentiels secteurs foireux.

Ce qu'il faut surveiller c'est l'évolution du nombre de secteurs défectueux (incorrigibles). SMART ne dispose d'aucun historique mais Synology a eu la bonne idée d'historiser ça dans HDD/SSD > HDD/SSD > choisir un disque > Infos sur la santé.

Voici ce que donne l'état de mon disque 4 :

etat-disque-4

Là encore si l'on se fie à l'état "sain" sans regarder les informations en dessous, c'est une erreur. Sans surpris la table SMART remonte les informations détaillées :

etat-disque-4-smart

Ce qui est particulièrement intéressant se trouve dans l'onglet historique :

etat-disque-4-historiquePour avoir surveiller l'état du disque mois après mois, je dois dire que je suis assez surpris. On ne peut pas dire que ce soit lié à la canicule où à l'utilisation du NAS. Pour l'avoir pas mal sollicité cet été c'est justement là où çà s'est calmé.

Je me suis renseigné et je suis tombé sur un article qui parlait du taux de panne chez BackBlaze :

"un modèle en particulier semble souffrir d'un grave défaut de conception. 43% des Barracuda 7200.14 de 3 To (référence ST3000DM001) de l'échantillon sont effectivement tombés en panne en 2014"

Cette information est toutefois à pondérer car BackBlaze utilise des disques dur traditionnels dans des boitiers remplis de disques, des conditions relativement difficiles (vibrations, résonance). Il se peut aussi très bien que BackBlaze soit tombé sur une série particulièrement défectueuse. Ces informations ne permettent pas de dire qu'une marque est meilleure qu'une autre, comme je l'entends encore trop souvent. On rencontre le même problème avec les marque d'ordinateur ou de voiture ou un consommateur se base sur son expérience pour tirer une généralité.

Corriger le défaut

Quoi qu'il en soit cette situation n'est pas rassurante. Mes disques sont en RAID-5 et cela explique pourquoi je ne l'ai pas changé. En voyant la baisse du mois de Juillet je pensais que ça allait se calmer, que j'avais passé la zone foireuse du disque. Sauf que cela semble augmenter à nouveau.

J'ai donc commander un nouveau disque dur en optant pour une référence différente pour statistiquement éviter de retomber sur un problème identique. J'ai acheté un Seagate ST3000VX000, très proche de la référence ST3000DM001 si l'on regarde les spécificités. A la différence près qu'il est conçu pour fonctionne H24 et dispose d'un MTBF plus élevé, tout comme sa garantie qui court sur 3 ans au lieu de 2. Manque de chance le disque défectueux était hors garantie.

Je vous conseille de faire attention à la durée de garantie des disques que vous achetez, l'idéal est 5 ans de garantie. Car si vous n'avez aucun souci pendant 5 ans il y a peu de chance que vous soyez victimes d'une panne brutale à la sixième année. Et puis les capacités évoluant vous remplacerez probablement ce disque.

Pour remplacer un disque dur dans une configuration RAID-5 (SHR), il suffit d'éteindre le disque NAS, de remplacer le disque dur par le nouveau. Allumez le NAS et rendez-vous sous DSM qui vous proposera de reconstruire le disque.

Une opération à haut risque, même en RAID-5

La reconstruction est une opération particulièrement sensible :

  • privilégiez un onduleur pour éviter une brutale coupure
  • contrôlez l'évolution de l'opération dans DSM
  • ne sollicitez pas votre NAS

Pour reconstruire la parité tous les disques restants vont être énormément sollicités, et il n'est pas rare qu'un autre disque tombe en rade à ce moment là (loi de murphy) car cette reconstruction génère un "stress" important sur les unités. C'est pour cette raison il est conseillé d'opter pour du RAID6 dès que les disques sont supérieurs à 500 Go, au lieu du RAID5. Le temps de reconstruction pendant lequel la grappe est vulnérable est d'environ 8 heures avec un disque dur de 3to. Ceci est une durée théorique maximale, en réalité le processus prendra plusieurs jours. Il vaut mieux avoir le cœur solide pendant cette période car vous pouvez effectivement tout perdre.

raid-5

Vous l'avez compris, le meilleur conseil que je puisse vous donner est de sauvegarder les données importantes vers un autre support (NAS, disque, etc) avant de vous lancer dans la réparation d'un disque. Si vous utilisez un disque dur hot-spare, vous supprimez cette possibilité. En effet dans cette configuration dès lors qu'un disque est identifié comme défectueux par le contrôleur RAID un disque de secours entre dans la grappe pour le remplacer. Avec le même risque de panne.

Et si vous mettiez du RAID-6 ?

Rappel : le comparateur de RAID Synology.

En bref si vous êtes en entreprise je vous conseille d'opter pour du RAID-6 avec un disque hot-spare (et je ne suis pas le seul).

Identique au RAID-5 avec un enregistrement des informations de parité sur deux disques au lieu d'un seul. 4 disques minimum sont nécessaire pour ce mode qui vous privera de 3 disques : 2 sont utilisés pour la parité et le 3ème pour le secours automatique. Si vous n'avez que 4 disques il n'est donc pas conseillé d'opter pour du hot-spare (sauf données extrêmement sensibles), par contre avec une dizaine de disques aucun souci. Pour commencer à perdre des données il faut perdre 4 disques d'un coup (ou 3 si vous n'avez pas de hot-spare).

Grâce au RAID-6 vous réduisez drastiquement le risque de perte de données.raid-6

 

Je récapitule :

  • La capacité d'un RAID-6 est de : (nombre de disques - 2) x (capacité du disque le plus petit)
  • La capacité d'un RAID-5 est de : (nombre de disques - 1) x (capacité du disque le plus petit)

Chez moi

En tant que particulier je dispose de deux NAS :

  • NAS 2 baies en RAID-1 pour les sauvegardes (DS214+), allumé une fois par mois pour les synchro (2 x 2To)
  • NAS 4 baies en RAID-5 pour le multimédia (jeux, vidéos, musique, PXE, etc - 4 x 3To)

Comme un NAS ne peut pas être considéré comme une sauvegarde, j'effectue un backup sur disque externe des données importantes sur un disque USB3 chiffré avec VeraCrypt. Les données du NAS DS214+ sont également chiffrées.

Si je perds le contenu du NAS Multimedia ça ne me fera sûrement pas plaisir, mais je pourrai retrouver une partie du contenu assez facilement sur le web. Ce qui n'est pas le cas de photos personnelles, documents, etc. Idéalement il faudrait externaliser ce disque pour pallier au risque d'incendie, vol... mais c'est assez fastidieux ensuite pour la rotation.

Un dernier mot concernant la rumeur de ceux qui prétendent que la mise en veille d'un disque dur l'abime. Si vous n'utilisez que très peu vos disques, rien ne vous empêche de configurer la mise en veille automatique. Je n'ai jamais vu un seul disque dur lâcher parce qu'il avait trop d'allumages. Par contre un disque dur qui n'est jamais redémarré et que l'on éteint un beau jour... et qui ne repart pas, j'en ai vu pleins. J'ai donc tendance à dire qu'un disque dur doit s'arrêter ou redémarrer de temps en temps pour éviter les surprises de perte simultannées.

J'espère que ce billet aura attiré votre curiosité, à défaut de vous apprendre des choses. Avec les belles canicules que nous avons eu, je vous conseille de faire un tour dans Disk Station Manager pour vérifier l'état de vos disques.

crédits images : raid-6raid-5

Auteur : Mr Xhark

Fondateur du blog et passionné par les nouvelles techno, suivez-moi sur twitter