Définition du Data Mining

Metier-Data-Miner-2.png
Metier-Data-Miner-2.png

Définition du Data Mining

622 lecteurs
Sommaire de l'article

Exploitation des données

7 minutes

Six étapes à suivre

Comprendre l’entrepriseLa première étape consiste à définir les objectifs du projet et à décider comment l’exploration de données peut vous aider à atteindre ce but. Un plan doit être créé à ce stade, qui comprend des actions de calendrier, ainsi que l’attribution des rôles.

Comprendre les données
Les données sont recueillies à partir de toutes les sources de données pertinentes à ce moment. Des outils de visualisation des données sont généralement utilisés pour étudier les propriétés des données afin de déterminer si elles peuvent être utilisées pour atteindre les objectifs de l’entreprise.

Préparation des données
Les données sont nettoyées et les éventuelles données manquantes sont ajoutées pour s’assurer qu’elles sont prêtes à être utilisées. Le traitement des données peut être long, en fonction du volume de données à traiter et de la quantité de sources de données. C’est la raison pour laquelle des systèmes distribués sont employés pour gérer les bases de données dans les systèmes contemporains de gestion de bases de données (SGBD) afin d’augmenter la vitesse du processus d’extraction des données au lieu de charger un seul système. Ils sont plus sûrs que la consolidation de toutes les données d’une organisation en un seul endroit. Il est crucial d’intégrer des mesures de sécurité lors de la manipulation des données afin de s’assurer que celles-ci ne soient pas définitivement perdues.

Modélisation des données
Des modèles mathématiques sont ensuite utilisés pour découvrir des modèles dans les données à l’aide d’outils de données sophistiqués.

Évaluation
Les résultats sont analysés et comparés aux objectifs commerciaux afin de déterminer s’ils peuvent être mis en œuvre dans toute l’entreprise.

Déploiement
Dans la dernière phase, les résultats de l’exploration des données sont partagés avec les processus opérationnels quotidiens. Une plateforme de business intelligence intégrée à l’entreprise peut être utilisée pour fournir une source fiable tout-en-un pour la découverte de données ouvertes.

Qu’est-ce que l’extraction de données exactement ?

L’exploration de données implique l’analyse et l’exploration de données massives pour découvrir des modèles et des règles pertinents. Il s’agit d’un domaine de la science des données. Elle se distingue de l’analyse prédictive car elle se concentre sur les données historiques, alors que l’exploration est conçue pour prédire les résultats futurs. En outre, les techniques utilisées dans l’exploration de données servent à construire des modèles d’apprentissage machine (ML) qui alimentent les applications modernes d’intelligence artificielle (IA), comme les algorithmes des moteurs de recherche et les systèmes de recommandation.

Avantages de l’exploration de données

Prise de décision automatisée
L’exploration de données permet aux organisations d’analyser continuellement leurs données pour prendre des décisions de routine automatisées sans remettre en cause le jugement humain. Les banques peuvent rapidement repérer les transactions frauduleuses, demander une vérification et même sécuriser les informations personnelles pour protéger les clients contre le vol d’identité. Mis en œuvre dans les systèmes opérationnels d’une organisation, ces modèles sont capables de rassembler, d’analyser et d’agir de manière indépendante sur les données afin d’améliorer la prise de décision et l’efficacité des processus de routine d’une organisation.

Voir Aussi  Définition Black Hat

Prévisions et prédictions exactes
La planification est une procédure cruciale dans toute entreprise. L’exploration de données aide à planifier et donne aux gestionnaires des prévisions précises basées sur les tendances passées ainsi que sur les tendances actuelles. Macy’s utilise des modèles de prévision de la demande pour prévoir le besoin de chaque produit vestimentaire dans chaque magasin et distribuer le stock approprié pour répondre aux besoins du marché.

Réduction des coûts
L’exploration de données permet une utilisation et une affectation plus efficaces des ressources. Les entreprises peuvent planifier et prendre des décisions automatisées en utilisant des prévisions précises qui minimisent les coûts. Delta a mis en place des puces RFID à l’intérieur des sacs enregistrés par les passagers et a utilisé des algorithmes d’exploration de données pour détecter les failles dans son processus et réduire le nombre de sacs qui ne sont pas correctement traités. Cette amélioration des processus améliore la satisfaction des clients et réduit les coûts de localisation et de réacheminement des bagages perdus.

Connaissance des clients
Les entreprises utilisent des modèles d’exploration de données dérivés de leurs dossiers clients pour identifier les caractéristiques et les différences les plus importantes entre leurs clients. L’exploration de données peut être utilisée pour créer des personas et adapter chaque point de contact afin d’améliorer l’expérience globale des clients. En 2017, Disney a investi plus d’un milliard de dollars pour créer et lancer les « Magic Bands ». Ils entretiennent une relation symbiotique avec leurs clients qui contribue à améliorer leur expérience globale dans le centre de villégiature, tout en collectant simultanément des informations sur leurs activités pour permettre à Disney d’analyser afin d’améliorer l’expérience client.

Défis de l’exploration de données
Bien qu’il s’agisse d’un processus très efficace, l’exploration de données est entravée par le volume et la complexité croissants des grandes données. Lorsque les entreprises sont en mesure de collecter d’énormes quantités de données chaque jour, les décideurs doivent trouver des moyens de collecter, d’analyser et d’utiliser leur vaste stockage de données.

Big Data
Les défis associés au Big Data sont prolifiques et englobent tous les domaines du stockage, de la collecte et de l’analyse des données. Le Big Data est caractérisé par quatre problèmes principaux qui sont le volume, la variété, la précision et la vitesse. L’objectif de l’exploration de données est de résoudre ces problèmes et de libérer le potentiel des données.

Le volume décrit les défis de la gestion et du stockage de l’énorme quantité de données recueillies par les entreprises. Cette quantité massive de données pose deux problèmes majeurs : d’abord, elle rend plus difficile la recherche des données correctes, et ensuite, elle réduit la vitesse des outils de traitement pour l’exploration des données.

Voir Aussi  Définition du SSO – Single Sign On

La variété comprend les nombreux types de données qui sont stockées et collectées. Les outils d’extraction de données doivent être capables de traiter simultanément une série de formats de données. L’incapacité d’analyser à la fois des données non structurées et structurées réduit la valeur de l’exploration de données.

La vélocité décrit la vitesse croissante des données générées, stockées et extraites. Dans le contexte du volume, il se réfère à la croissance des besoins de stockage, et la variété se réfère à la croissance des types et des types de données, la vélocité est le problème dû au taux toujours croissant de création de données.

En outre, la véracité montre que toutes les données ne sont pas également précises. Les données peuvent être désordonnées, insuffisantes ou mal collectées, ou même biaisées. Dans tous les cas, plus les données sont traitées rapidement, plus elles comportent d’erreurs. Le défi de l’authenticité consiste à trouver un équilibre entre la quantité de données et leur qualité.

Modèles surajustés
On parle de surajustement lorsqu’un modèle est capable d’expliquer les erreurs naturelles de l’échantillon, au lieu des tendances sous-jacentes présentes dans la population. Les modèles surajustés sont généralement trop compliqués et reposent sur un nombre excessif de variables indépendantes afin de créer une estimation. Ainsi, le risque de surajustement augmente avec la quantité et la complexité des données. Un petit nombre de variables rend le modèle inutile et un nombre excessif de variables le limite aux données disponibles dans l’échantillon. Le problème est de réduire le nombre de variables qui sont utilisées dans les modèles de data mining et d’équilibrer leur pouvoir prédictif et leur précision.

Types d’exploration de données
L’exploration de données comprend deux méthodes principales : l’apprentissage supervisé et l’apprentissage non supervisé.

Apprentissage supervisé
L’objectif de l’apprentissage supervisé est de prédire ou de classer. La façon la plus simple de conceptualiser le processus est de rechercher une variable de sortie qui soit unique. On parle d’apprentissage supervisé lorsque l’objectif du modèle est d’anticiper la signification d’une observation. Les filtres anti-spam en sont un bon exemple : ils utilisent le processus d’apprentissage supervisé pour classer les courriels comme spam et les supprimer automatiquement de votre boîte aux lettres électronique.

Les modèles analytiques courants utilisés dans les techniques supervisées d’exploration de données sont les suivants

Régressions linéaires
Les régressions linéaires déterminent la valeur d’une variable qui est continue en fonction d’une ou deux entrées indépendantes. Les agents immobiliers utilisent des régressions linéaires pour déterminer la valeur d’une maison en analysant la zone, le rapport entre le nombre de lits et le nombre de bains, l’année de construction, ainsi que le code postal.

Voir Aussi  GR Online mon compte : se connecter à mon espace client Total

Régressions logistiques
Les régressions logistiques permettent de prédire la probabilité d’une variable catégorielle en utilisant au moins une entrée indépendante. Les banques utilisent des régressions logistiques pour prévoir la probabilité d’échec d’un demandeur de prêt sur la base du revenu du ménage, de l’âge du score de crédit et d’autres variables personnelles.

Séries chronologiques
Outils de prévision pour les séries chronologiques qui utilisent le temps comme principale variable indépendante. Les détaillants, comme Macy’s, emploient des modèles basés sur le temps pour prévoir la demande de produits dans le temps et utilisent les prévisions pour concevoir et planifier précisément les magasins et leur fournir la quantité nécessaire de stocks.

Arbres de régression ou arbres de classification
Les arbres de classification sont une méthode de modélisation prédictive utilisée pour déterminer la signification des variables catégorielles et continues. Sur la base des informations, le modèle crée des règles binaires pour diviser et classer le pourcentage le plus élevé de variables cibles qui sont similaires les unes aux autres. Si ces règles sont suivies, le groupe dans lequel tombe un nouveau point de données sera transformé en sa valeur prédite.

Réseaux neuronaux
Modèle analytique d’un réseau neuronal influencé par la structure du cerveau ainsi que par ses neurones et ses connexions. Ces modèles ont été développés pour la première fois dans les années 1940 mais ont récemment gagné en popularité auprès des chercheurs et des statisticiens. Les réseaux neuronaux utilisent des entrées et, en fonction de leur ampleur, ils vont « pondérer » ou « ne pas pondérer » leurs nœuds en fonction du seuil requis. Le signal, ou son absence, est ensuite fusionné avec d’autres signaux « pondérés » qui se trouvent dans les couches cachées du réseau, et le processus se poursuit jusqu’à l’obtention d’une sortie. L’un des avantages des réseaux neuronaux est leur sortie quasi-instantanée. Les véhicules à conduite autonome utilisent ces modèles pour traiter précisément et rapidement les données afin de prendre eux-mêmes des décisions cruciales.

K est le plus proche voisin
La méthode du K plus proche voisin peut être utilisée pour classer une nouvelle observation sur la base des observations précédentes. Contrairement aux méthodes précédentes, la technique du plus proche voisin se base sur des données, et non sur une hypothèse ou un modèle. La méthode ne fait pas d’hypothèses fondamentales concernant les données et n’emploie pas de méthodes compliquées pour interpréter ses entrées. Le principe de la méthode des k plus proches voisins est qu’elle note les nouvelles données en identifiant leurs K plus proches voisins avant de leur attribuer l’importance de la majorité. De nombreux systèmes de recommandation utilisent cette méthode pour trouver le contenu similaire, qui sera ensuite extrait de l’algorithme le plus important.

4.2/5 - (11 votes)
Marine
Marine

Passionnée par l'entreprenariat depuis plus de 10 ans, je suis à la tête d'une société française visant à favoriser la communication des entreprises. Également attiré par la finance, je partage mes conseils et expériences au travers mes articles de blog.

Retour en haut