centenaire.org

Définition de HDFS

videoimg

Définition de HDFS

486 lecteurs
Sommaire de l'article

Définition de HDFS

HDFS (Hadoop Distributed File System) est un système de fichiers distribué qui gère des ensembles de données massives et fonctionne sur du matériel couramment utilisé. Il peut être utilisé pour étendre la taille d’un cluster Apache Hadoop à des centaines (et même des milliers) de nœuds. HDFS est l’un des principaux éléments d’Apache Hadoop, les autres étant MapReduce et YARN. HDFS ne doit pas être substitué ou comparé à Apache HBase, qui est un logiciel de gestion de bases de données orienté colonnes et non relationnel, construit sur le dessus de HDFS et qui peut mieux répondre aux besoins de données en temps réel grâce à son moteur de traitement en mémoire.

Un bon exemple de HDFS

Prenons l’exemple d’un fichier contenant les numéros de téléphone de chaque personne vivant aux États-Unis ; les numéros de ceux dont le nom de famille commence par la lettre A peuvent être enregistrés sur le serveur 1, B sur le serveur 2, et ainsi de suite.

Avec Hadoop, les morceaux de ce répertoire seront stockés à travers le cluster. Afin de recréer l’ensemble du répertoire, votre application aura besoin de blocs provenant de chaque serveur du cluster.

Pour garantir la disponibilité du système en cas de défaillance d’un serveur, HDFS réplique ces minuscules chunks sur deux serveurs par défaut. (La redondance peut être réduite ou augmentée en fonction du fichier ainsi que pour l’ensemble du système ; par exemple, un cluster Hadoop de développement ne nécessite généralement pas de redondance des données). La redondance présente de nombreux avantages, le plus évident étant une disponibilité accrue.

Voir Aussi  Qu’est-ce que la Data Exploration ?

La redondance permet également au cluster Hadoop de diviser le travail en petits morceaux et d’exécuter les tâches sur tous les serveurs du cluster afin d’augmenter l’évolutivité. En outre, vous pouvez bénéficier de la possibilité de localiser les données, ce qui est essentiel dans le cas de grands ensembles de données.

Pourquoi avez-vous besoin de cette technologie ?

HDFS est d’une importance vitale pour répondre aux besoins du Big Data. Il est impossible de stocker les données dans un endroit central car le volume de données est trop important et il existe des contraintes de capacité et de coût, entre autres. Cependant, grâce à la nature distribuée de HDFS, il est possible de conserver les données sur plusieurs serveurs et de les traiter. La possibilité d’héberger les données sur du matériel couramment utilisé rend cette option plus attrayante puisque, lorsque la charge augmente, il suffit d’augmenter le nombre de nœuds ou de serveurs. HDFS gère les nœuds cassés en stockant les mêmes données de manière redondante. De plus, il est incroyablement simple d’augmenter ou de diminuer la taille des serveurs, puisque vous pouvez facilement ajouter ou soustraire du matériel pour répondre aux dernières exigences.

En outre, HDFS résout aisément le problème du traitement continu des données, car il s’agit d’une plateforme utilisée pour le traitement par lots, qui n’est pas conçue pour l’interaction. Cela la rend idéale pour les applications Big Data où les données affluent dans une pléthore de données rapides et doivent être traitées en continu pour être appréhendées en temps quasi réel ou en temps réel. HDFS remplace les anciens systèmes de gestion de bases de données qui n’étaient pas en mesure de gérer toutes les données de manière continue et de fournir des informations en temps réel.

Voir Aussi  Oscaro mon compte : se connecter à mon espace client www.oscaro.com

Si vous avez des doutes ou des incertitudes concernant les Big Data, demandez des éclaircissements aux experts en Big Data de Hadoop et de la communauté Spark.

Quels sont les avantages de l’apprentissage de cette technologie ?

Il y a de nombreux avantages à se familiariser avec cette technologie, car HDFS est la technologie la plus fiable et la plus tolérante aux pannes disponible dans le monde open-source. Elle peut être mise à l’échelle et réduite en fonction des besoins et il est difficile de trouver un HDFS pour remplacer les besoins de stockage du Big Data Hadoop. Par conséquent, vous devrez commencer à travailler sur la plate-forme Hadoop si vous êtes en mesure de comprendre les concepts de HDFS. Certaines des plus grandes entreprises du monde utilisent massivement Hadoop, et la situation ne fera que s’améliorer dans un avenir proche. Des entreprises telles qu’Amazon, Facebook, Google, Microsoft, Yahoo, General Electrics et IBM utilisent d’énormes clusters Hadoop pour analyser leurs énormes quantités de données. Par conséquent, en tant que professionnel de l’informatique innovant, cette technologie pourrait vous permettre de laisser vos concurrents loin derrière et de faire un énorme bond en avant sur la voie du succès.

4.4/5 - (28 votes)
Marine
Marine

Passionnée par l'entreprenariat depuis plus de 10 ans, je suis à la tête d'une société française visant à favoriser la communication des entreprises. Également attiré par la finance, je partage mes conseils et expériences au travers mes articles de blog.

Retour en haut