Qu’est-ce que la Data Virtualization

videoimg

Qu’est-ce que la Data Virtualization

388 lecteurs
Sommaire de l'article

Qu’est-ce que la virtualisation des données ?

À l’ère moderne, les données d’entreprise se présentent sous diverses formes et sont stockées à différents endroits. Il existe des données structurées et non structurées, telles que des lignes et des colonnes d’informations dans des bases de données traditionnelles, mais aussi des données stockées dans d’autres formats, comme les journaux, les courriels et les contenus liés aux médias sociaux. Le Big Data, sous ses nombreuses formes, est stocké dans les fichiers journaux des applications CRM, SaaS et autres.

Comment obtenir une vue d’ensemble de vos vastes informations et les organiser sous leurs multiples formes ? Vous pouvez le faire en utilisant la virtualisation des données, un terme général utilisé pour décrire toute méthode de gestion des données de référence qui vous permet d’accéder aux données et de les modifier, sans savoir où elles sont stockées ni comment elles sont structurées.

La virtualisation des données intègre des données provenant de diverses sources, sans les déplacer ni les copier, ce qui permet aux utilisateurs de disposer d’une couche unique compatible avec divers formats, applications et emplacements physiques. Cela permet un accès plus rapide et plus pratique aux données.

Il s’agit de la forme la plus avancée d’intégration moderne des données, car elle élimine les formats et les silos, permettant la réplication et la fédération des données en temps réel. Cela permet de gagner en rapidité, en agilité et en rapidité de réaction. Elle facilite l’exploration des données, qui permet une analyse efficace des données, et est cruciale pour le développement d’outils d’analyse prédictive. L’application efficace de l’intelligence artificielle et de l’apprentissage automatique n’est pas possible sans la virtualisation des données.

Il est important de noter que la virtualisation des données n’est pas une réplique des magasins de données. En général, la virtualisation des données ne conserve ni ne reproduit les données des sources. Les seules données qu’elle stocke sont des métadonnées qui peuvent être utilisées pour les vues virtuelles ainsi que pour la logique d’intégration. La mise en cache est un moyen d’améliorer les performances, mais dans l’ensemble, la virtualisation des données est conçue pour être extrêmement légère et flexible.

Virtualisation des données

La virtualisation des données intègre des données provenant de diverses sources dans des formats digestes, ce qui augmente considérablement l’efficacité de l’exploration des données.

Capacités de la virtualisation des données Grâce à ses capacités d’abstraction et de fédération, la virtualisation des données est idéale pour le Big Data. Elle masque la complexité des magasins de Big Data, qu’il s’agisse de magasins Hadoop ou NoSQL, et permet de connecter facilement les données de ces magasins à d’autres données au sein de l’entreprise. Après tout, c’est l’objectif de la virtualisation des données, et le Big Data est par nature hétérogène.

Un autre avantage du Big Data est ce que l’on appelle le délestage de l’entrepôt de données, également connu sous le nom de partitionnement horizontal, qui consiste à transférer les données moins fréquemment utilisées hors de l’entrepôt et à les transférer vers un stockage moins coûteux et plus pratique. Elles peuvent être transférées d’un SSD vers un disque dur ou une bande par exemple, ou dans le cas du stockage en nuage et de Glacier d’Amazon Web Service pour le stockage à froid.

La virtualisation des données offre donc un éventail de possibilités :

  • Des économies de coûts : Il est plus abordable de stocker et de préserver les informations que de les dupliquer puis de dépenser des ressources pour les convertir en divers formats et supports.
  • Abstraction et découplage logiques : les sources de données hétérogènes peuvent désormais interagir plus facilement grâce à la virtualisation des données.
  • Gouvernance des données : Grâce à la gestion centralisée des données, les problèmes de gouvernance peuvent être réduits et les règles peuvent être appliquées plus facilement à toutes les données à partir d’un seul endroit.
  • Rapprochement entre les données non structurées et structurées : la virtualisation des données peut combler le fossé sémantique entre les données non structurées et structurées, ce qui rend l’intégration plus simple et la qualité des données est améliorée à tous les niveaux.
Voir Aussi  Espace client Engie : mon compte particulier et pro sur www.engie.fr

Augmentation de la productivité :

Outre l’intégration des données, la virtualisation permet de simplifier le test et le déploiement d’applications axées sur les données, puisqu’il faut moins de temps pour connecter les sources de données.
Gardez également à l’esprit ce que la virtualisation des données ne signifie pas :

Il ne s’agit pas d’une virtualisation ordinaire. Si le mot « virtualisation » est utilisé, il fait généralement référence à la virtualisation du matériel utilisé dans les serveurs. Il n’y a aucun lien entre les deux à part le mot.
Il ne s’agit pas du stockage virtualisé des données. Certains produits et entreprises utilisent l’expression « virtualisation des données » pour faire référence à des logiciels pour bases de données ou à des produits de virtualisation du stockage basés sur le matériel, mais il s’agit de solutions de stockage de données autonomes et non d’une méthode permettant d’ajouter des sources de données.
Il ne s’agit pas de la visualisation des données. Les deux sont similaires, mais la visualisation fait référence à la présentation des données à l’aide de graphiques, de tableaux, de rapports, de cartes, d’images 3D, etc. La visualisation des données est réalisée par la virtualisation des données, car elle extrait les données de diverses sources.
Il ne s’agit pas d’une fédération de données. Nous y reviendrons plus tard, mais pour le moment, la virtualisation des données et la fédération de données sont deux sujets distincts. Bien que certaines personnes les utilisent de manière interchangeable, ce qui n’est pas correct.

Il ne s’agit pas d’un entrepôt de données logique. LDW est une idée architecturale et non une plateforme réelle. Vous pouvez accéder aux données d’un LDW en utilisant la virtualisation des données.
Il n’y a pas de conteneur dans ce système. Contrairement aux conteneurs, la virtualisation fonctionne comme une couche d’abstraction, tandis que les conteneurs sont des enveloppes logicielles d’une application ainsi que de ses nombreux composants.
Cas d’utilisation de la virtualisation des données
La virtualisation des données peut être utilisée à des fins très diverses, car il s’agit simplement de créer une couche d’accès aux données entre diverses sources de données et des consommateurs de données, tels que des tableaux de bord ou d’autres outils de visualisation. Voici quelques-uns des cas les plus couramment utilisés :

Intégration de données

Il s’agit probablement du scénario le plus typique que vous rencontrerez, car pratiquement toutes les entreprises disposent de données provenant de diverses sources. Vous devez donc connecter une source de données plus ancienne, hébergée dans une configuration client/serveur, à des plateformes numériques modernes comme les médias sociaux. Vous établissez des connexions, comme Java DAO, ODBC, SOAP ou toute autre API pour rechercher vos informations dans le catalogue de données. Le plus difficile est d’établir des connexions, même en utilisant la virtualisation des données.

Voir Aussi  Securycar : connexion à l’espace client et résiliation

Entrepôts de données logiques

L’entrepôt de données logique remplit des fonctions similaires à celles de l’entrepôt traditionnel, mais il y a quelques différences. Tout d’abord, contrairement à un entrepôt de données traditionnel où les données sont traitées, préparées et stockées, il n’y a pas de données stockées dans un LDW. Les données sont stockées au point d’origine, quelle que soit la source, y compris les entrepôts de données traditionnels. Il n’est donc pas nécessaire de construire une infrastructure ; vous pouvez utiliser des entrepôts de données déjà existants. Un progiciel LDW de qualité peut fédérer les différentes sources de données et offre une plateforme intégrée utilisant une variété de services, comme SOAP, REST, Odata, SharePoint et ADO. Net.

Big Data et analyse prédictive
Il est vrai que la virtualisation des données fonctionne bien car le Big Data et l’analyse prédictive dépendent de sources de données hétérogènes. Il ne s’agit pas seulement de puiser dans une base de données Oracle, le Big Data provient d’éléments tels que l’utilisation du téléphone portable, les médias sociaux et le courrier électronique. C’est pourquoi la virtualisation des données se prête à ces nombreuses méthodes différentes.

Utilisations opérationnelles
L’un des principaux problèmes des applications de service client ou de centre d’appels est le cloisonnement des données, et ce depuis longtemps. Une banque aura besoin d’un centre de contact supplémentaire pour les transactions par carte de crédit par rapport aux prêts immobiliers, par exemple. Avec l’utilisation de la virtualisation des données, qui permet d’accéder aux silos de données, n’importe qui, du centre de contact à l’administrateur de la base de données, peut accéder à toutes les données stockées via un point d’accès unique.

Abstraction et découplage
C’est l’opposé des aspects d’unification mentionnés ci-dessus. Il peut y avoir des sources de données que vous souhaitez exclure, que ce soit en raison de sources douteuses ou de règles de confidentialité ou d’autres règles de conformité. La virtualisation des données vous permet de séparer la source de données que vous souhaitez isoler des utilisateurs qui ne devraient pas pouvoir accéder à ces données.

Virtualisation des données : Sujets connexes

Virtualisation des données vs. Fédération de données
Les deux termes sont fréquemment utilisés conjointement. C’est une erreur. La fédération de données est une forme de virtualisation des données. Il s’agit dans les deux cas de techniques visant à faciliter l’accès des applications aux données. La différence réside dans le fait que la fédération de données peut être employée pour donner une méthode unique d’accès aux bases de données qui sont virtualisées en utilisant des modèles de données rigoureux. La virtualisation des données n’utilise pas de modèle de données réel et est capable d’accéder à divers types de données.

Virtualisation des données versus lac de données
La virtualisation des données et les lacs de données ne sont pas rivaux et ne doivent pas être confondus. Un lac de données, un énorme dépôt de données non structurées et non traitées, n’est qu’une des sources de données que vous pouvez connecter lorsque vous travaillez dans un système de virtualisation des données. (En passant, il est utile de connaître la différence entre les deux types de lacs de données, à savoir le lac de données et l’entrepôt de données).

Voir Aussi  Yves Rocher mon compte : se connecter à mon espace client sur www.yves-rocher.fr

Virtualisation des données vs. Intégration des données
L’intégration des données est quelque chose que vous faites et la virtualisation des données est le moyen de l’accomplir. L’intégration est, comme son nom l’indique, le processus de fusion des données provenant de plusieurs systèmes de stockage de données afin de créer une vue unifiée de toutes les données. Elle est utilisée avec la virtualisation des données pour connecter les différents silos de données, puis vous effectuez la transformation, l’enrichissement et le nettoyage de la jonction des données avant de les ajouter à un tableau de bord analytique ou à une autre méthode.

Architecture de virtualisation des données
Les solutions doivent pouvoir évoluer pour répondre aux besoins changeants de l’entreprise. De nouvelles sources de données seront toujours ajoutées, et certaines seront supprimées. Au fur et à mesure que vous ajoutez de nouvelles sources, le danger de la complexité et de la lenteur de la mise à l’échelle est susceptible de devenir apparent. En outre, il se peut que du code se chevauche et ajoute une complexité inutile. Pour éviter cela, gardez ces conseils à l’esprit :

  • Créez vos applications en utilisant des couches d’approche pour isoler la logique métier et les composants de transformation.
  • Établissez des règles strictes de normalisation comme le nommage, la réutilisation et l’isolation des couches.
  • Utilisez des outils de modélisation pour la virtualisation des données comme PowerDesigner, TIBCO Data Virtualization, Cisco Data Virtualization et Oracle Data Service Integrator.
  • Impliquez les équipes chargées de l’architecture des données, de la sécurité et de la gouvernance des données dès le début du processus, afin de construire des connecteurs de données parfaitement conformes aux réglementations.
  • Déterminez qui est responsable sur la plateforme de virtualisation des données.

Outils de virtualisation des données

Les plates-formes de virtualisation des données sont conçues pour connecter diverses sources de données avec une interface unifiée, mais elles passent toutes par une voie alternative. Certains acteurs majeurs ont réussi à s’imposer sur le marché mais ont depuis quitté le navire. Il s’agit notamment de Cisco qui a transféré son logiciel de virtualisation des données à TIBCO en 2017 et d’IBM qui a lancé le marché en 2014, mais qui a depuis cessé de vendre SmartCloud Data Virtualization d’IBM.

Voici une liste des outils de virtualisation des données les plus connus.

DataCurrent se concentre sur les données qui sont stockées dans des référentiels NoSQL services cloud, les données d’application ainsi que d’offrir des outils de business intelligence de soutien qui se connectent avec ces sources de données.

Denodo est un spécialiste des données en temps réel. Denodo est connu pour être simple à comprendre et à utiliser.

Oracle Data Service Integrator – L’intégrateur de données le plus puissant, qui est compatible avec Oracleou

Red Hat JBoss Data Virtualization écrit en Java Il fonctionne mieux en utilisant n’importe quelle interface JDBC. L’ODBC est jugé insuffisant.

SAS Federation Server – Se concentre sur la sécurité des données.

TIBCO Data Virtualization – Connu pour sa capacité à se connecter à un large éventail de sources de données.

4.2/5 - (24 votes)
Marine
Marine

Passionnée par l'entreprenariat depuis plus de 10 ans, je suis à la tête d'une société française visant à favoriser la communication des entreprises. Également attiré par la finance, je partage mes conseils et expériences au travers mes articles de blog.

Retour en haut