Qu’est ce que la Data stream

quest-ce-que-la-data
quest-ce-que-la-data

Qu’est ce que la Data stream

295 lecteurs
Sommaire de l'article

Qu’est-ce qu’un flux de données ?

Si vous saisissez dans OpenSearch des données de séries temporelles générées en continu, comme des événements, des métriques et des journaux, vous êtes probablement dans une situation où la quantité de données augmente rapidement et où vous n’avez pas à remplacer les anciens documents.

Un flux de travail typique pour gérer les données de séries temporelles consiste en plusieurs étapes, comme la création d’un alias pour les index roulants, la définition d’un index d’écriture et la définition de mappages et de paramètres de base pour les index de sauvegarde.

Les flux de données facilitent ce processus et vous permettent de sélectionner une configuration qui convient le mieux aux données de séries chronologiques, par exemple, en étant conçu spécifiquement pour les données d’appendice seulement, et en veillant à ce que chaque document soit équipé d’un champ d’horodatage approprié.

Un flux de données composé de plusieurs index de sauvegarde. Les demandes de recherche sont acheminées à travers tous les index de sauvegarde lorsque les requêtes d’indexation sont dirigées vers l’index d’écriture le plus récent. Les politiques ISM vous permettent d’automatiser le renouvellement des index ou les suppressions.

Notions de base sur les flux de données

Les flux de données font référence au transfert continu de données d’une source à une destination. Lorsque des flux de données sont utilisés, les sources transmettent des données fréquemment, souvent plusieurs fois par seconde mais en petites quantités. Comparez cela au traitement par lots classique dans lequel les opérations ne sont pas fréquentes et envoient de plus grandes quantités de données à chaque fois.

Revenons un instant à l’exemple de Netflix. Ce service de streaming a révolutionné le secteur du divertissement en permettant aux spectateurs de télécharger de petites portions d’un film pendant qu’ils le regardent (streaming) au lieu de télécharger le film entier au préalable (traitement par lots traditionnel). Cela libérait de l’espace et, au cas où ils n’étaient pas satisfaits du film, ils n’avaient pas à utiliser une grande quantité de bande passante.

En raison de la nature en temps réel du flux de données, les sources de données peuvent modifier leurs flux en temps quasi réel. Par exemple, Netflix a créé une série d’améliorations de la qualité du streaming sur les connexions lentes et les réseaux surchargés. Netflix collecte également de nombreuses données à partir de chaque flux et les utilise pour améliorer la qualité de son contenu.

Voir Aussi  Logiciel gestion de chantier : comment aide t-il à planifier un chantier ?

Les flux de données ne se limitent pas à la vidéo. Vous trouverez ci-dessous d’autres utilisations des flux de données :

  • Les journaux de stockage générés par les applications mobiles ou web pour une analyse rapide et des recherches futures ; Les informations sur les achats en ligne, comme le temps nécessaire pour traiter l’achat et les habitudes de navigation sur les sites web, et la façon d’y arriver sur le site ;
  • Les activités sur les médias sociaux comme les vues, les likes, les messages et les posts et,
    La position d’une automobile à un moment précis et la vitesse de sa progression par rapport à l’itinéraire prévu.
  • Toutefois, par rapport au traitement par lots des données en continu, la diffusion en continu nécessite davantage de ressources. La diffusion d’un film en continu par le biais de 10000 requêtes HTTP distinctes représente une charge plus importante qu’une seule requête. Cependant, la diffusion en continu peut échanger cette inefficacité potentielle contre la facilité d’utilisation et la valeur ajoutée par la disponibilité rapide des données.

Le tableau ci-dessous offre une comparaison impartiale du traitement par lots et du streaming de données :

  • Traitement par lots Flux de données
  • Étendue des données Traitement de la totalité ou de la majorité des données disponibles Traitement des données qui ne sont disponibles que pour une certaine période ou à partir des données les plus récentes
  • Lots plus importants Enregistrements uniques ou lots extrêmement petits
  • Latence des performances de quelques minutes à quelques heures. Millisecondes ou secondes

En tant qu’ingénieur ou data scientist, vous remarquerez que le travail avec les flux diffère des projets batch. Par exemple, vous aurez besoin de GPUs TPUs, FPGAs, et d’une variété d’autres GPUs pour effectuer le traitement juste-à-temps d’énormes quantités de données générées par les flux. Pour travailler avec des flux de données, vous devrez comprendre parfaitement comment les systèmes informatiques traitent les entrées et les sorties et communiquent avec les réseaux. Vous devrez également comprendre comment utiliser les outils pour les flux de données.

Applications pour le flux de données

Le streaming de données a fait son chemin dans de nombreux secteurs différents. Les utilisations les plus courantes sont le divertissement, le transport, les industries, les marchés financiers, l’énergie solaire, les jeux multi-joueurs, pour n’en citer que quelques-unes.

Voir Aussi  Pacifica Mutuelle : mon compte client en ligne

Divertissement

Au-delà de ce que nous savons de Netflix et d’autres fournisseurs de divertissement vidéo, les entreprises de divertissement vidéo utilisent les flux de données pour déterminer ce que les téléspectateurs regardent, le temps qu’ils mettent à terminer un programme et les scènes qui suscitent le plus leur intérêt. Ces données permettent aux sociétés de divertissement d’adapter rapidement leur contenu aux préférences ou aux goûts d’un certain public. Des entreprises comme Netflix sont également en mesure de détecter des schémas dans le streaming qui pourraient signaler un problème technique. En se basant sur des flux lents ou non connectés, Netflix peut souvent détecter des problèmes avec un FAI spécifique plus tôt que le FAI lui-même !

Transport et industrie

Les capteurs des véhicules de transport ainsi que des équipements industriels et agricoles communiquent en permanence des informations sur leurs performances et leur état. Les outils d’analyse des données suivent les performances des machines, repèrent les dysfonctionnements et passent les commandes de pièces détachées aussi vite que possible. Le volume de données créées par les équipements permet aux ingénieurs et aux analystes de faire des prévisions précises sur les capacités et les délais de mise sur le marché.

Marchés financiers

Dans le monde de la finance, la milliseconde est le rythme auquel les transactions financières sont effectuées. Les algorithmes automatisés négocient à une telle vitesse qu’il est presque impossible de maintenir un rythme, au minimum en termes de transaction. Les algorithmes analysent des flux de données en temps réel, allant des fluctuations de prix au sentiment du marché, et tentent d’anticiper le comportement des marchés pour obtenir un avantage sur le marché.

Énergie solaire

Les entreprises du secteur de l’énergie solaire doivent maintenir leurs équipements en bon état et mettent souvent en place des logiciels pour surveiller tous les panneaux de leur réseau. Elles programment également les tâches de maintenance et de réparation en temps réel. Le suivi de la « santé » de chaque panneau solaire permet d’augmenter la production d’énergie et de minimiser les pertes opérationnelles.

Jeux multi-joueurs

Les entreprises spécialisées dans les jeux multijoueurs recueillent des flux de données qui documentent l’interaction entre les éléments du jeu et les joueurs. Elles analysent ces données en temps réel afin de créer une expérience de jeu dynamique pour les joueurs. Cela permet au monde numérique de s’adapter au style de jeu des joueurs, ce qui ne serait pas possible avec des jeux conçus de manière statique.

Voir Aussi  Qu’est-ce qu’un Data Architect ?

Prise en compte des outils de flux de données

Pour tirer le meilleur parti de votre flux de données, vous aurez besoin d’outils qui peuvent vous aider à collecter les données et à les traiter, ainsi qu’à en extraire des données précieuses. Dans cette section, nous allons vous présenter des outils créés pour vous aider à rendre vos projets de flux de données plus efficaces.

Apache Spark

Apache Spark est un moteur de traitement de données open source qui repose sur le calcul en grappe. Il vous permet de réaliser des analyses à grande échelle en utilisant des ordinateurs en cluster, en combinant la puissance de toutes ces machines. Apache Spark comprend le moteur de requête SQL et des bibliothèques de traitement de données en continu (Spark Streaming) et un système de traitement de graphiques (GraphX). Apache Spark est également livré avec une variété de bibliothèques d’algorithmes d’apprentissage automatique. Apache Spark peut effectuer des traitements par lots et en temps réel.

Apache Kafka

Apache Kafka est une plateforme open-source de streaming d’événements largement utilisée pour collecter, traiter et stocker des flux continus d’informations ou de données qui n’ont pas de début ou de fin précis. Kafka a une haute performance et des caractéristiques comme le système de partitionnement intégré, la réplication et la tolérance aux pannes. Il s’agit d’une solution populaire pour le traitement à grande échelle des messages et des applications de streaming.

Amazon Kinesis

Amazon Kinesis est un service entièrement géré pour le traitement des données en streaming à grande échelle. Vous pouvez configurer des centaines de milliers de producteurs de données pour inclure des données en continu dans le flux Amazon Kinesis. Il peut s’agir de données provenant de flux de clics, de journaux d’applications et de flux de réseaux sociaux. En moins d’une seconde, les données sont accessibles à vos applications Amazon Kinesis, qui peuvent les traiter et les lire directement à partir du flux.

4.4/5 - (23 votes)
Marine
Marine

Passionnée par l'entreprenariat depuis plus de 10 ans, je suis à la tête d'une société française visant à favoriser la communication des entreprises. Également attiré par la finance, je partage mes conseils et expériences au travers mes articles de blog.

Retour en haut