Sauvegarde vs RAID

Les sauvegardes sont une partie cruciale de notre vie numérique. Chaque ordinateur, des bases de données géantes à un seul ordinateur personnel ou appareil mobile, a besoin d'une sauvegarde. Un endroit où les données utilisateur les plus pertinentes peuvent être stockées pendant une longue période et également stockées de manière à pouvoir être récupérées en cas de besoin. Nous pouvons faire une distinction entre les données sur notre système en cours d'exécution, appelons-le données en direct, et le sauvegardé Les données. Ce dernier étant stocké loin du système actuel qui utilise les données en direct.

RAID, s'occupe des données en direct, c'est un mécanisme avec lequel un système en cours d'exécution combine plusieurs disques en une seule entité de stockage. Les données sont ensuite réparties sur tous les disques de manière à pouvoir survivre à la défaillance d'au moins un (ou plusieurs) des disques physiques. Le type de matrice RAID le plus simple est RAID1, ou mise en miroir. C'est là que vous copiez (ou dupliquez) les mêmes données sur deux ou plusieurs disques de sorte que si l'un des disques tombe en panne, les données peuvent toujours survivre et être toujours utilisées activement. Il existe également d'autres configurations RAID, et nous en discuterons au fur et à mesure.

À propos du RAID

RAID, ou Redundant Array of Inexpensive Disks, est un mécanisme permettant de stocker des données sur plusieurs disques. Il existe un large « tableau » de configuration RAID que vous pouvez utiliser, mais les deux mécanismes de base sur lesquels ils sont tous basés sont les suivants :

1. Mise en miroir :

La mise en miroir implique que vos blocs de données sont copiés, mis en miroir, sur plusieurs disques. Si vous mettez en miroir vos données sur trois disques, vous pouvez survivre jusqu'à la défaillance de deux disques à un moment donné, les disques défaillants peuvent ensuite être remplacés par de nouveaux sans trop de tracas. De même, si vous copiez des données sur n+1 disques, vous pouvez supporter jusqu'à m disques défaillants. L'inconvénient est que vous n'obtenez que la capacité de stockage égale au plus petit disque de votre matrice RAID.

2. Parité:

Une deuxième approche consiste à diviser vos données en deux parties, en utilisant les deux blocs de données utilisateur, vous pouvez créer un troisième bloc de "parité". Les trois blocs sont tous de la même taille et sont répartis sur différents appareils. Un minimum de trois appareils est nécessaire pour que cette configuration fonctionne. Si l'un des disques tombe en panne, vous pouvez recréer les blocs stockés sur ce disque en utilisant les deux autres blocs. Par exemple, si le deuxième bloc utilisateur est perdu, le premier bloc et le bloc de parité peuvent être utilisés pour calculer le deuxième bloc utilisateur. Si vous êtes intéressé par la façon dont cela fonctionne, consultez cette merveilleuse explication.

Cette méthode peut être encore améliorée pour avoir 2 voire 3 blocs de parité. Mais plus de 3 blocs de parité ne sont pas vus dans l'industrie si souvent. Si vous avez un bloc de parité, vous pouvez survivre à une panne de disque. Deux blocs de parité signifient que vous pouvez résister à la défaillance de deux disques, etc.

Il est plus efficace en termes d'utilisation du stockage que la mise en miroir. Si vous avez un bloc de parité, vous n'avez besoin que de 50 % de stockage physique en plus par données utilisateur réelles que vous stockez. Cela signifie que pour stocker 1 Go de données, vous aurez besoin de 1.5 Go de stockage (en plus il y a un petit surcoût pour les métadonnées). C'est bien plus efficace que même le schéma de mise en miroir le plus efficace où vous avez besoin d'au moins 2 Go de stockage pour mettre en miroir 1 Go de données entre deux disques.

L'inconvénient est que les opérations d'écriture aléatoires vont être ralenties, grâce au bit supplémentaire de calcul et d'opération d'écriture associé au bloc de parité. De plus, la fiabilité n'est pas aussi bonne que celle d'un n+1 disques en miroir où vous pouvez vous préparer à la défaillance d'un nombre arbitraire de disques.

Les configurations RAID peuvent être aussi complexes ou aussi simples que vous le souhaitez, vous pouvez combiner les stratégies de parité et de mise en miroir et les modifier à la convenance de votre entreprise. Il existe des contrôleurs RAID dédiés auxquels vous connectez vos disques physiques, et le système d'exploitation voit alors un seul disque logique comme indiqué par le contrôleur. LSI est l'un de ces fournisseurs de contrôleurs RAID. Vous pouvez également effectuer un RAID dans le logiciel OpenZFS est probablement le meilleur pari que vous ayez à cet égard.

Un dernier type de RAID, qui obtient une mention honorable est le RAID 0. Techniquement, ce n'est pas un schéma RAID, car il n'y a pas de redondance impliquée ici. L'idée derrière RAID 0 est de simplement répartir vos données sur plusieurs périphériques de stockage sans quelconque résilience contre les pannes de disque. L'avantage est que vous obtenez des améliorations de performances en faisant cela. Si vous écrivez 1 Go de données sur un seul disque, le processus est lent. Le disque ne peut effectuer qu'un nombre limité d'opérations d'écriture par seconde et votre système d'exploitation doit attendre qu'il termine cette opération avant que de nouvelles données ne soient envoyées. Si vous répartissez le même 1 Go de données sur deux de ces disques, vous pouvez écrire (et lire) à partir des deux simultanément et gagner un peu d'amélioration des performances.

Sauvegardes

Le concept de sauvegardes est discutable plus important que celui de RAID. Une sauvegarde, dans le contexte de la gestion du stockage, est une bonne copie connue des données, à partir d'un moment donné, à partir de laquelle vous pouvez restaurer des fichiers dans votre système principal en cas de besoin. En termes de mise en œuvre, il existe de nombreuses solutions hébergées dans le cloud et de nombreuses solutions hors ligne qui peuvent être utilisées.

Tarsnap et Backblaze sont mes services de sauvegarde gérés préférés pour les cas d'utilisation privés et professionnels. Vous pouvez également inclure Google Drive, iCloud ou Dropbox dans cette définition d'un sauvegarde solution mais ils sont plus ciblés vers le marché de la consommation que l'entreprise. Cependant, le principe sous-jacent est toujours le même. Lorsque vous vous connectez à un nouvel iPhone ou iPad, toutes les données, vos contacts, photos, bibliothèque multimédia, etc., sont synchronisées de manière transparente à partir de votre compte iCloud. il ne faut pas s'en soucier.

Votre solution de sauvegarde peut être aussi simple que de copier des données sur un disque dur externe ou d'utiliser rsync (ou zfs send, si vous utilisez OpenZFS) pour générer périodiquement une copie de toutes les informations pertinentes. Cela peut inclure votre dossier Documents, votre base de données, votre référentiel source ou même l'intégralité de votre système de fichiers racine splat dans un zip plat ou une archive tar. Les critères importants auxquels une bonne solution de sauvegarde doit répondre sont les suivants :

Les sauvegardes doivent avoir lieu souvent - Si vous sauvegardez des données tous les mois, au lieu de toutes les semaines, vous risquez de perdre jusqu'à un mois de données en cas de catastrophe.
Vos sauvegardes doivent remonter dans le temps - Le stockage de sauvegarde est limité. Parfois, vous devez jeter les anciennes sauvegardes. Plus vous avez de stockage, meilleures sont vos sauvegardes. Supposons que vous sauvegardez vos données chaque semaine, mais que vous jetez les sauvegardes de plus de 2 semaines. Si un fichier est accidentellement supprimé et que cela passe inaperçu pendant deux semaines, vous n'aurez aucun moyen de le récupérer.
Vos fichiers devraient en fait être restaurés - Si vous n'avez jamais essayé de récupérer vos données à partir de la sauvegarde, vous n'avez pas de sauvegarde. Vous ne devriez pas avoir à apprendre à récupérer des données, au moment critique où vous avez subi une perte de données. Planifiez à l'avance et sachez comment restaurer le système à partir de la dernière bonne sauvegarde connue.
Votre sauvegarde doit être séparée du système en cours d'exécution - Lorsqu'un sinistre survient et que tous vos fichiers sur le serveur de production sont chiffrés, supprimés ou corrompus, vous devez vous assurer que la même chose n'arrive pas à votre sauvegarde. Un bon moyen de s'en assurer est de s'assurer que votre périphérique de sauvegarde n'est pas « connecté » à votre environnement de production, je.e, débranchez votre disque dur USB, démontez votre système de fichiers NFS lorsque vous avez terminé de le sauvegarder. Au moins, ne donnez pas au système de production le privilège d'écraser ou de modifier vos données de sauvegarde. Mettez-le en lecture seule.

Maintenant que nous en savons un peu plus sur le RAID et la sauvegarde, soulignons quelques différences entre eux.

Fichiers et blocs

Le RAID est toujours concerné par les blocs de données, et non par la manière dont le système de fichiers présente ces données à l'utilisateur. Le RAID logiciel et matériel traite les données sous forme de blocs d'informations, la taille des blocs peut varier de 128 Kio à 1 Mio.

Les sauvegardes en revanche sont beaucoup plus flexibles. Ils sont généralement effectués au niveau du système de fichiers, bien qu'il n'y ait pas de règle absolue pour que ce soit le cas. Ils sont aussi plus granuleux. Vous pouvez restaurer un seul fichier à partir de votre sauvegarde, si votre solution est suffisamment flexible. Les matrices RAID ne sont pas des sauvegardes, elles sont juste un moyen de répartir les données sur plusieurs disques. Si un fichier est supprimé, tous ses blocs en miroir et blocs de parité sont libérés. Fin de l'histoire.

Cas d'utilisation

Les sauvegardes sont pour tout le monde. L'approche et l'étendue peuvent varier d'un cas d'utilisation personnel à l'entreprise, mais toute personne ayant une vie numérique a besoin d'une sauvegarde. Le RAID est plus une fonctionnalité spécifique à l'entreprise/à l'entreprise. Vous voyez des matrices RAID dans les serveurs, les périphériques de stockage comme les NAS et les SAN, les hyperviseurs cloud, etc. Pratiquement n'importe quel endroit qui stocke des données critiques en direct utilise une forme de RAID. Même les serveurs qui exécutent vos sauvegardes hébergées dans le cloud utilisent probablement des matrices RAID. Ce ne sont pas des technologies mutuellement exclusives.

Cela ne signifie pas que vous ne pouvez pas utiliser RAID pour votre cas d'utilisation personnel, il a juste plus d'utilité dans les entreprises. Cela s'explique en partie par le fait que dans l'entreprise, les disques sont pilonnés avec des opérations d'E/S 24h/24 et 7j/7. Dans un environnement de production, comme le stockage d'une base de données ou d'un service de streaming vidéo ou d'un hyperviseur cloud, le périphérique de stockage de votre serveur sera soumis à une charge horrible constante, les données sont constamment lues et écrites sur ces périphériques et souvent par plusieurs applications simultanément. Dans ces conditions, vos disques sont beaucoup plus susceptibles de tomber en panne. Avoir une configuration RAID signifie que si un disque tombe en panne, vous subirez peu ou pas de temps d'arrêt. La plupart des serveurs peuvent continuer à fonctionner même après une panne de disque afin que vous ne perdiez pas de nouvelles informations et demandes entrantes chaque seconde.

Un ordinateur de bureau moyen peut difficilement recréer la même condition stressante, même si le disque meurt, si vous utilisez une solution de sauvegarde comme Backblaze, vous pouvez récupérer la plupart de vos données perdues et perdre quelques heures de travail est probablement la pire chose qui ça peut arriver. Même cela devient une rareté grâce aux solutions hébergées dans le cloud comme Adobe Creative Cloud, Office 365, etc.

Le RAID ne remplace pas la sauvegarde

S'il y a un seul point à retenir de cet article, ce devrait être celui-ci. RAID n'est PAS un substitut à la sauvegarde. Sauvegardez toujours vos données! Il y a beaucoup de gens qui pensent que si vous avez RAID, cela signifie que les données sont en sécurité sur plusieurs disques et qu'il n'est donc pas nécessaire de les sauvegarder. Rien n'est plus éloigné de la vérité. Le RAID est destiné à traiter un seul problème spécifique - les disques défaillants ou restituant des données erronées. Avoir RAID ne vous protégera pas d'un million d'autres menaces comme les suivantes :

Erreurs utilisateur et suppressions accidentelles
Bogues d'application ou de système d'exploitation provoquant une corruption généralisée des données
Ransomware ou autre malware cryptant, supprimant ou corrompant vos données
Défaillance des contrôleurs RAID eux-mêmes

Les données de votre matrice RAID sont en direct. Si le système d'exploitation, une application (ou un utilisateur) se détraque et supprime quelques fichiers ici et là, le fichier sera supprimé sur l'ensemble de votre matrice RAID. Avoir une copie séparée de vos données, une sauvegarde, est le seul moyen de vous protéger contre ce genre de scénario.

Conclusion

Si vous êtes inquiet pour vos données, votre première préoccupation devrait être la solution de sauvegarde. La plupart des utilisateurs de bureau, à l'exception peut-être des utilisateurs expérimentés, devraient investir davantage dans une sauvegarde fiable au lieu de jouer avec RAID1, RAID5 ou RAIDZ. Si vous souhaitez créer votre propre serveur de sauvegarde, vous devez penser à une politique de sauvegarde décente et à un backend de stockage fiable. Cet article peut être un bon point de départ. Vous pouvez utiliser rsync ou zfs send pour effectuer une copie périodique de vos données sur ce backend.

Si vous êtes dans l'entreprise et envisagez une solution RAID pour stocker toutes vos données en direct. Envisagez d'utiliser OpenZFS, il offre une solution très flexible, allant de la mise en miroir n-disk à RAIDZ1 avec un bloc de parité à RAIDZ2 et RAIDZ3 avec 2 et 3 blocs de parité. Vous devez bien réfléchir aux exigences de votre application avant de prendre une décision. Il existe des compromis entre vos performances de lecture-écriture, la résilience et l'efficacité du stockage. Cependant, je vous recommanderais de ne penser à RAID qu'après avoir choisi une solution de sauvegarde.