Qu’est-ce qu’un data mesh

Centenaire Magazine > Blog > Logiciel & Web > Qu’est-ce qu’un data mesh

445 lecteurs

Qu’est-ce qu’un maillage de données ?

À l’instar des équipes d’ingénieurs logiciels qui sont passées des logiciels monolithiques aux architectures de microservices, le maillage de données est à bien des égards le pendant des microservices en termes de plateforme de données. Selon Zhamak Dehghani, consultant chez ThoughtWorks et architecte original, le maillage de données est une sorte de plateforme de données capable de s’adapter à l’abondance de données au sein de l’entreprise grâce à une conception orientée domaine et en libre-service. Basé sur la théorie d’Eric Evans de la conception orientée domaine, qui est un modèle qui relie la structure et le langage de votre logiciel au domaine d’activité approprié, le maillage de données est largement considéré comme le prochain changement technologique majeur dans le domaine des données.

Contrairement aux infrastructures de données monolithiques traditionnelles qui gèrent la consommation, la transformation, la sortie et le stockage des données sous la forme d’un lac de données central, les maillages de données prennent en charge les consommateurs de données distribués, chacun ayant un domaine spécifique. Il considère les données comme un service, chaque domaine disposant de ses propres pipelines de données. La couche qui relie les domaines ainsi que leurs ressources de données est une couche d’interopérabilité commune qui utilise les mêmes normes et syntaxes de données.
Au lieu de réinventer la roue de Zhamak, simplifions la définition des mailles de données en quelques concepts clés, puis expliquons en quoi elles diffèrent des structures de données traditionnelles.

À un niveau élevé, le maillage de données se compose de trois éléments distincts, à savoir les sources de données, l’infrastructure de données et les pipelines de données orientés domaine, gérés par des responsables fonctionnels. La conception du maillage de données s’appuie sur une couche d’interopérabilité universelle qui reflète des normes indépendantes du domaine, ainsi que sur la capacité d’observation et de gestion. (Image tirée de Monte Carlo Data).

Pipelines orientés domaine et propriétaires des données

Les données maillent la propriété des données entre les propriétaires de domaines qui doivent fournir leurs informations en tant que produits tout en facilitant la communication entre les données situées à différents endroits.
L’infrastructure de données est chargée de fournir à chaque domaine les solutions nécessaires au traitement des données, mais les domaines sont responsables de la gestion de la collecte, du nettoyage et de l’agrégation afin de produire des sources utiles à utiliser dans des applications de veille stratégique. Chaque domaine est propriétaire de ses pipelines ETL. Ils sont cependant aussi un ensemble de capacités est appliquée à tous les domaines qui stocke les catalogues, les magasins, et gère les contrôles d’accès pour les données brutes. Une fois les données transformées et servies par un domaine particulier, les propriétaires du domaine sont en mesure d’utiliser les données pour leurs propres besoins analytiques ou opérationnels.

Voir Aussi Mon compte CACMDS en ligne du Crédit Agricole sur www.ca-cmds.fr

Fonction de libre-service

Les maillages de données utilisent les principes de la conception orientée domaine pour fournir des plates-formes de données en libre-service qui permettent aux utilisateurs d’éliminer la complexité technique et de se concentrer sur leur utilisation spécifique des données.

Comme l’indique Zhamak, l’un des principaux problèmes de la conception orientée domaine est l’inefficacité et les compétences requises pour maintenir l’infrastructure et les pipelines de données dans chaque domaine. Pour résoudre ce problème, le maillage de données combine et associe les capacités de l’infrastructure de données indépendantes du domaine en une seule plate-forme pour gérer les moteurs des pipelines de données ainsi que l’infrastructure de streaming et de stockage. En outre, chaque domaine a la responsabilité d’utiliser les composants afin de créer des pipelines ETL personnalisés, et de leur fournir la possibilité de servir leurs données avec facilité ainsi que l’autonomie nécessaire pour véritablement contrôler le processus.

Normalisation de la communication et interopérabilité

Chaque domaine dépend d’une collection universelle de normes de données, ce qui facilite la collaboration inter-domaines lorsque cela est nécessaire et est habituel. Il est inévitable que certaines données (qu’il s’agisse d’ensembles de données brutes ou nettoyées et transformées) puissent être utiles à plusieurs domaines. Pour faciliter la collaboration inter-domaines, le maillage des données doit normaliser la gouvernance du formatage, la découvrabilité, la gouvernance ainsi que les champs de métadonnées en plus d’autres caractéristiques des données. En outre, à l’instar de chaque microservice, chaque domaine de données doit déterminer et convenir des accords de qualité et de niveau de service ainsi que des mesures qu’il va « garantir » à ses clients.

Pourquoi avez-vous besoin d’un maillage de données ?

Jusqu’à récemment, de nombreuses entreprises utilisaient un entrepôt de données relié à diverses plateformes de veille stratégique. Ces systèmes étaient gérés par une poignée d’experts et étaient souvent grevés d’une dette technique importante.
En 2020, la structure de l’avenir sera un lac de données qui fournira un accès aux données en direct et un traitement en flux continu dans le but de recueillir, d’enrichir, de modifier et de servir les données par le biais d’une plate-forme de données centrale. Pour de nombreuses entreprises, ce type d’architecture n’est pas sans défaut :

Voir Aussi Quelles sont les différentes certifications Microsoft Azure ?

La centralisation du pipeline ETL laisse les équipes avoir moins de contrôle sur les volumes croissants de données.
Comme chaque entreprise est désormais une entreprise d’information, diverses applications de données nécessitent différents types de transformations. Cela exerce une pression énorme sur la plate-forme centrale.
Les lacs de données qui sont le résultat du stockage des données peuvent créer des créateurs de données désengagés, des utilisateurs de données impatients et, plus important encore, une équipe de données surchargée qui n’est pas en mesure de répondre aux demandes de l’entreprise. Toutefois, les structures de données axées sur le domaine, comme les maillages de données, offrent aux équipes leurs meilleures options :

Une base de données centrale (ou un lac de données distribué) avec des domaines (ou des secteurs d’activité) qui sont responsables de la gestion des pipelines qu’ils possèdent.

Les maillages de données offrent une réponse aux limites des lacs de données en offrant plus d’autonomie et de flexibilité aux propriétaires de données, ce qui facilite l’exploration et l’invention à l’aide des données tout en allégeant la pression exercée sur les équipes travaillant avec les données pour satisfaire les exigences de chaque consommateur de données à l’aide d’un seul pipeline.

En outre, la plate-forme d’infrastructure en libre-service pour les maillages de données offre aux équipes travaillant avec des données une approche commune, indépendante du domaine et souvent automatisée, de la normalisation des données et du lignage des produits de données ; du suivi des produits de données ; des alertes, de la journalisation et des mesures de la qualité des produits de données (en d’autres termes, de la collecte et du partage des données). Ensemble, ces avantages constituent un atout par rapport aux architectures de données classiques qui sont souvent freinées par l’absence de normalisation des données entre consommateurs et collecteurs.

Mailler ou ne pas mailler pour mailler : telle est la question ?

Les équipes qui gèrent une grande variété de sources de données et doivent jouer avec les données (en d’autres termes, les transformer rapidement) devraient envisager d’utiliser la puissance d’un maillage de données.
Nous avons conçu une méthode simple pour déterminer si c’est une bonne idée pour votre entreprise d’investir dans le maillage de données. Répondez à chaque question ci-dessous par un chiffre, puis additionnez-les pour créer un score global, c’est-à-dire votre score sur votre maillage de données.

Le nombre de sources de données. Combien de sources de données votre entreprise possède-t-elle ?
La taille de votre équipe pour les données. Combien d’ingénieurs de données, d’analystes de données et de chefs de produits (le cas échéant) compte votre équipe d’analystes de données ?
Le nombre de domaines dans les données. Quel est le pourcentage d’équipes fonctionnelles (opérations marketing, ventes, etc.) qui dépendent des données que vous collectez pour prendre leurs décisions ? Quel est le nombre de produits que possède votre entreprise et combien de fonctionnalités basées sur les données sont en cours de développement ? Faites le total.
Goulets d’étranglement de l’ingénierie des données. Sur une échelle de 1 à 10, 1 étant « jamais » et 10 étant « toujours », à quelle fréquence l’équipe responsable de l’ingénierie des données est-elle en train de mettre en œuvre les derniers produits liés aux données ?
Gouvernance des données. Sur une échelle de 1 à 10 où 1 signifie « jamais » et 10 « toujours », quelle est la priorité absolue pour la gouvernance des données de votre entreprise ?

Voir Aussi Manomano : Comment se connecter et accéder à mon compte manomano.fr

Score de maillage des données

En général, plus votre score est élevé, plus l’infrastructure de données de votre entreprise est compliquée et exigeante et plus votre entreprise est susceptible de bénéficier du maillage de données. Si vous avez obtenu un score supérieur à 10 sur l’échelle, la mise en œuvre de certaines des meilleures pratiques de maillage des données est susceptible de profiter à votre entreprise. Si vous avez obtenu un score supérieur à 30, votre entreprise se situe au milieu du maillage des données et il est logique de participer à la révolution des données.

Voici comment calculer votre score :

1-15 : Compte tenu de la taille et du caractère unidimensionnel de l’environnement de données, vous n’avez peut-être pas besoin d’un maillage de données.
15-30 : Votre entreprise connaît une croissance rapide et peut se trouver dans une situation difficile en ce qui concerne sa capacité à dépendre des données. Nous vous encourageons à intégrer certaines pratiques et concepts de maillage de données pour vous aider à aller de l’avant.
30 ou plus 30 ou plus : votre entreprise est à la pointe de l’innovation et un maillage de données peut contribuer à toute initiative actuelle ou future visant à rendre les données plus accessibles et à proposer des analyses en libre-service dans toute l’entreprise.

Les données sont de plus en plus répandues et les besoins des utilisateurs de données ne cessent de croître Nous nous attendons à ce que les maillages de données deviennent plus courants pour les entreprises basées sur le cloud et comptant plus de 300 employés.

4.5/5 - (15 votes)

Marine

Passionnée par l'entreprenariat depuis plus de 10 ans, je suis à la tête d'une société française visant à favoriser la communication des entreprises. Également attiré par la finance, je partage mes conseils et expériences au travers mes articles de blog.

Qu’est-ce qu’un data mesh