data deduplication

Centenaire Magazine > Blog > Logiciel & Web > data deduplication

487 lecteurs

déduplication des données

La déduplication des données, souvent appelée compression intelligente ou stockage à une seule instance, est une méthode qui élimine les copies en double des données et réduit également la charge du stockage. Les techniques de déduplication des données garantissent qu’une seule instance de données peut être sauvegardée sur un dispositif de stockage, tel qu’une mémoire flash ou une bande. Les blocs de données qui sont redondants sont remplacés par un index vers la seule sauvegarde des données. De cette manière, la déduplication des données correspond étroitement à la sauvegarde incrémentielle qui ne copie que les informations modifiées par rapport à la sauvegarde précédente. Par exemple, un système de messagerie électronique peut contenir 100 copies de la même pièce jointe d’un mégaoctet (Mo). Si la plate-forme de messagerie est archivée ou sauvegardée, les 100 instances sont sauvegardées, ce qui nécessite 100 Mo de stockage. Avec la déduplication des données, une seule copie de la pièce jointe est sauvegardée et chaque copie ultérieure est comparée à celle qui a été sauvegardée. Dans ce cas, la demande de stockage de 100 Mo est réduite à 1 Mo. Déduplication entre la source et la cible
La déduplication des données peut être effectuée soit au niveau de la source, soit au niveau de la cible.

La déduplication à la source élimine les blocs redondants avant d’envoyer les informations vers une destination de sauvegarde sur le serveur ou le client. Aucun matériel supplémentaire n’est nécessaire. La déduplication à la source peut réduire l’utilisation de la bande passante et du stockage.

Voir Aussi Mon espace santé : se connecter à mon compte monespacesante.fr

Avec la déduplication basée sur des cibles, les sauvegardes sont transférées sur un réseau vers un équipement sur disque éloigné. L’utilisation de cibles de déduplication peut augmenter les coûts, mais elle donne généralement de meilleures performances que la déduplication à la source, en particulier pour les ensembles de données d’une taille de plusieurs pétaoctets.

Techniques de déduplication des données
Il existe deux méthodes principales pour dédupliquer les informations redondantes : la déduplication en ligne et la déduplication post-traitement. Votre environnement de sauvegarde détermine celle que vous employez.

La déduplication en ligne analyse les données au moment où elles sont introduites dans le système de sauvegarde. Les redondances sont éliminées une fois que les données sont transférées vers le stockage de sauvegarde. La déduplication en ligne nécessite moins de stockage de sauvegarde, mais peut provoquer des goulots d’étranglement. Les fournisseurs de baies de stockage suggèrent de désactiver leur logiciel de déduplication des données en ligne pour un stockage primaire plus performant.

La déduplication post-traitement est une procédure de sauvegarde synchrone qui élimine les données redondantes une fois qu’elles sont stockées. Les données qui sont dupliquées sont éliminées et remplacées par un pointeur vers l’itération initiale du bloc. La technique de post-traitement permet aux utilisateurs de dé-dupliquer des tâches spécifiques et de restaurer la dernière sauvegarde, sans avoir à s’hydrater. Il en résulte une plus grande capacité de stockage des sauvegardes que celle qui serait nécessaire avec la déduplication en ligne.

Déduplication au niveau des fichiers vs. Déduplication au niveau des blocs
La déduplication des données fonctionne généralement au niveau des blocs ou des fichiers. La déduplication des fichiers au niveau des fichiers peut éliminer les fichiers en double mais ce n’est pas une méthode de déduplication fiable.

Voir Aussi Ma messagerie SFR mail – messagerie.sfr.fr

La déduplication des données au niveau des fichiers compare les données à sauvegarder ou à archiver avec des copies précédemment stockées. Ceci est réalisé en comparant ses caractéristiques à un index. Si le fichier est unique, il est enregistré ainsi que l’index mis à jour. Dans le cas contraire, c’est juste un pointeur vers le fichier original qui est enregistré. Cela signifie que la seule instance du fichier est enregistrée ; les copies ultérieures sont remplacées par un talon qui pointe vers le fichier original.

La déduplication au niveau des blocs examine un fichier image et stocke les instances uniques pour chaque bloc. Les blocs sont divisés en morceaux de même longueur. Chaque fragment de données est traité par un algorithme de hachage comme MD5 ou SHA-1.

Ce processus crée un numéro unique pour chaque morceau, et il est enregistré dans un index. Si le fichier est modifié, seules les informations mises à jour sont stockées, même si seuls quelques octets de la mise en page ou du document ont changé. Les modifications ne correspondent pas à la création d’un fichier entièrement nouveau. La déduplication par bloc est donc plus efficace. Cependant, il faut plus de puissance de traitement et plus d’index pour identifier les éléments individuels.

La déduplication à longueur variable peut être une solution qui divise un système de fichiers en morceaux de différentes tailles, ce qui permet à l’effort de déduplication d’atteindre de meilleurs ratios de réduction de données que les blocs de longueur fixe. Les inconvénients sont qu’elle génère également plus de métadonnées et peut être plus lente.

Voir Aussi Webmail Lyon : connexion à Convergence sur webmail.ac-lyon.fr

Les collisions de hachage peuvent être un problème lorsqu’il s’agit de déduplication. Lorsqu’un numéro de hachage est attribué à un élément de données, ce numéro est ensuite comparé à l’index des autres numéros de hachage. Si le numéro de hachage existe déjà dans l’index, la donnée est considérée comme un doublon et n’a pas besoin d’être stockée une nouvelle fois. Dans les autres cas, le nouveau numéro de hachage est ajouté à l’index et les données mises à jour sont enregistrées. Dans de rares cas, l’algorithme utilisé pour calculer les numéros de hachage peut générer le même numéro de hachage pour deux éléments d’information distincts. Si une collision se produit, le système n’enregistre pas les nouvelles données car il se rend compte que le numéro de hachage se trouve déjà dans l’index. On parle alors de faux positifs, ce qui peut entraîner une perte de données. Certains fournisseurs utilisent des algorithmes de hachage pour réduire le risque de collision. Certains fournisseurs examinent également les métadonnées pour déterminer la source des données et éviter les collisions.

4.4/5 - (20 votes)

Marine

Passionnée par l'entreprenariat depuis plus de 10 ans, je suis à la tête d'une société française visant à favoriser la communication des entreprises. Également attiré par la finance, je partage mes conseils et expériences au travers mes articles de blog.

data deduplication

data deduplication

Sommaire de l'article

Partager l'article

Les derniers articles

Nos catégories

Finance

Assurance

France

Immo

Logiciel& Web

Blog

Nos outils

Simulation Prêt immobilier

Simulation frais de notaire

Simulateur TMI

Salaire Brut Net

Catégories du blog

Articles les plus lu

Sur le blog centenaire