Le denier rapport de Backblaze, l’un des hébergeurs les plus reconnus dans le domaine du stockage, continue de nous éclairer avec ses analyses détaillées sur les pannes des SSD. Dans ce rapport du premier semestre 2023, la société a examiné la performance et la fiabilité de plus de 3 000 SSD employés dans un contexte professionnel et intensif.

Cela fait déjà plusieurs années que Backblaze nous offre des aperçus profitables sur la durabilité des disques durs à travers les statistiques recueillies dans ses datacenters. Récemment, la société a élargi son champ d’analyse pour inclure également les SSD. Ces données sont particulièrement pertinentes car elles sont basées sur des centaines d’unités fonctionnant en continu, 24 heures sur 24, 7 jours sur 7.

Les SSD, bien que principalement utilisés comme disques de démarrage pour les serveurs, ont des rôles plus étendus. Comme le souligne Backblaze, ils gèrent également le stockage des journaux et des fichiers temporaires, reflétant ainsi l’activité quotidienne du serveur de stockage. Pour donner une perspective, à la fin de 2022, l’entreprise exploitait 2 906 SSD. Ce nombre a augmenté pour atteindre 3 036 à la fin de mars 2023 et 3 144 à la fin du second trimestre.

Ce rapport promet d’offrir des insights approfondis sur la performance des SSD dans un environnement exigeant, tout en mettant en lumière les nuances importantes à considérer lors de l’évaluation des taux de défaillance.

Résultats semestriels des pannes des SSD dans les datacenters de Blackblaze

Le 30 juin 2023,les serveurs de stockage de Blackblaze comptaient 3 144 SSD , soit une augmentation de 20% de SSD en plus en comparaison du dernier rapport 2022. 238 disques SSD ont été ajoutés à la collection utilisée pour l’analyse des pannes. Le modèle Crucial (CT250MX500SSD1) ,avec 110 nouveaux disques est le plus représenté, suivi de 62 nouveaux disques WDC (modèle : WD Blue SA510 2.5) et 44 disques Seagate (modèle : ZA250NM1000).

Il est essentiel de noter, comme le souligne judicieusement Backblaze, que l’interprétation des statistiques, surtout celles concernant la fiabilité des disques, nécessite une considération prudente de la taille de l’échantillon et de l’intervalle de confiance. Tirer des conclusions hâtives sans prendre en compte ces facteurs pourrait mener à des interprétations erronées ou trompeuses.

Dans cette situation, il peut simplement manquer des données pour obtenir des résultats probants. C’est pourquoi pour chaque type de disque, Blackblaze préfère avoir au moins 100 disques et 10 000 jours d’exploitation sur un trimestre avant de considérer l’AFR estimé comme étant « fiable ». Pour des résultats précis concernant un modèle de lecteur spécifique il est important de tenir compte du nombre de disques et des jours d’exploitation avant d’analyser l’AFR (Annualized Failure Rate) calculé.

Taux de pannes des SSD au fil du temps

Les données pour chaque trimestre peuvent être volatiles en raison de facteurs tels que l’âge du disque ou la survenue aléatoire de pannes qui peuvent influencer l’AFR à la hausse ou à la baisse. Comme le montre le graphique ci-dessus, l’AFR fluctue entre 0,36% et 1,72%. Les taux trimestriels ne fournissent donc pas toujours des informations précieuses. Parfois, certains modèles de disques ne sont pas compatibles avec l’environnement système, ce qui amène à les retirer de la circulation, et modérer ou supprimer leur impact sur les analyses globales.

Fluctuation des pannes de SSD

Bien que ces disques ne jouent pas un rôle aussi vital que les disques de données dans la gestion de la robustesse de son système, il est essentiel de maintenir les disques de démarrage actifs pour recueillir les informations qu’ils enregistrent quotidiennement. Dans les cas d’incompatibilités, il est nécessaire d’ajuster ou d’éliminer même l’influence de ce disque défaillant et de considérer l’AFR de manière critique.

Utilisation interne des données par Backblaze

Comme démontré dans les rapports SSD et HDD Drive Stats, Blackblaze génère des graphiques trimestriels, annuels et sur toute la durée de vie des données collectées. Chaque graphique représente généralement un modèle de disque spécifique, mais dans certains cas, plusieurs modèles de SSD sont regroupés en un seul graphique.

Comparaison AFR de l'âge moyen des pannes des SSD

Par exemple, les résultats des SSD Micron indiquent dans le graphique ci-dessus la nécessité d’une analyse plus approfondie des données sous-jacentes. En collectant, stockant et analysant en continu les données Drive Stat Blackblaze peut maintenir de manière proactive ses objectifs de durabilité et de disponibilité. Sans ces données, ils pourraient être enclins à surexploiter leur systèmes, car ils demeureraient inconscients du caractère aléatoire des défaillances de SSD qui impactent directement la performance des datacenter.

Un premier aperçu d’autres statistiques sur les SSD

En plus des taux de défaillance trimestriels et sur toute la durée de vie, les rapports trimestriels Hard Drive Stats ont examiné d’autres indicateurs au fil des années. Le graphique ci-dessous, propose une première étude de deux de ces indicateurs  : l’âge moyen auquel les SSD échouent et dans quelle mesure leurs défaillances correspondent à la courbe en baignoire.

La « courbe en forme de baignoire » est un concept utilisé en ingénierie de la fiabilité pour décrire le taux de défaillance d’un produit ou d’un système au fil du temps. Cette courbe est divisée en trois phases distinctes :

  1. Phase de défaillance précoce (ou période de rodage) : Au début de la vie d’un produit, il peut y avoir un taux de défaillance élevé dû à des défauts de fabrication ou à d’autres problèmes initiaux. Ces défaillances sont souvent identifiées et corrigées rapidement.
  2. Phase de défaillance constante (ou vie utile) : Après la phase de rodage, le produit entre dans une période où le taux de défaillance est relativement constant et faible. C’est pendant cette phase que le produit est généralement le plus fiable.
  3. Phase de défaillance due à l’usure (ou fin de vie) : À mesure que le produit vieillit, les composants commencent à s’user et le taux de défaillance augmente à nouveau.

L’utilité de cette courbe est de permettre aux ingénieurs et aux concepteurs de comprendre et de prédire le comportement de défaillance d’un produit ou d’un système tout au long de sa vie, et d’identifier les opportunités d’amélioration pour augmenter la fiabilité.

SSD Bathtub Curve

Bien que ces ensembles de données soient limités en taille, ils offrent néanmoins de précieuses informations. Selon Blackblaze, alors que la courbe actuelle (ligne bleue) montrant les pannes des SSD au cours de chaque trimestre soit quelque peu « irrégulière » la ligne de tendance (rouge) a bien  » une allure de courbe en baignoire « .

La ligne de tendance correspond à environ 70 % des données réelles, de sorte que Backblaze déclare ne pas être totalement confiant à ce stade, mais pour la quantité limitée de données disponibles, il semblerait que les occurrences de pannes de SSD soient sur la bonne voie pour se conformer à la courbe en baignoire qui a fait ses preuves.

Vous pourrez retrouver toutes les données de cette étude sur la page de ressources mise à disposition par Blackblaze.