Objectif
Maitriser l’administration d’un cluster Hadoop
Prix
2355€/Personne HT
Durée
4 jours
Programme
Hadoop Ecosystem
Introduction Big Data
Distributed File Systems
Présentation Hadoop
Map-Reduce
Yarn
Écosystème Hadoop
Apache Ambari
Présentation d’Ambari
Ambari views
Architecture d’Ambari
Pré-requis pour l’installation d’un cluster HDP avec Ambari
LAB
Installation d’un cluster HDP 3.1 sur AWS
Préparation des environnements
Déploiement d’Ambari server et Ambari agents
Installation du cluster HDP 3.1
Hadoop Cluster Planning
Introduction Big Data
Cluster Planning
Hardware Recommendations for Apache Hadoop
Typical Hadoop Cluster
Hadoop Components
Présentation des composants de la stack HDP 3.1.0
Gestion des utilisateurs avec Ambari
Gestions des utilisateurs locaux
Gestions des privilèges pour les utilisateurs locaux et LDAP
HDFS
Hadoop Distributed File System Architecture
Gestion du stockage HDFS
HDFS
HDFS rack awareness
HDFS Disaster Recovery
Resource Manager Yarn
Présentation de YARN (Yet Another Resource Manager)
Architecture et Opération de YARN
Yarn TimeLine Server
Yarn Capacity Scheduler
Configuration et gestions des queues Yarn
Yarn ACLs
Hadoop High Availability
Stratégies HA pour un cluster Hadoop
Yarn HA
HDFS HA
HBase HA
Hadoop Cluster Scalability
Gestion de la scalabilité d’un cluster Hadoop
Hadoop Cluster Services and Monitoring
Gestions des services Hadoop
Cluster monitoring
Cluster alerts
Objectifs de la formation Hadoop Administrator
01
Déploiement d'un Cluster Hadoop
Plusieurs moyens sont possible pour déployer un cluster Hadoop. Lors de cette formation vous vous mettez en situation réelle où vous déploierez un cluster Hadoop sur 3 noeuds avec Apache Ambari
02
Architecture Stack Hadoop
L’un des objectif de cette formation est de vous familiariser avec l’architecture de l’écosystème Hadoop et ses composants: HDFS, Yarn, HBase…
03
Gestion des ressources
La gestion des ressources du cluster est l’une des tâches principales d’un administrateur Hadoop. Le gestionnaire des ressources utilisé par Hadoop est YARN
04
Ecosystème Hadoop
En plus de HDFS, YARN et MapReduce, Hadoop est un écosystème complet qui permet l’analyse, le traitement et le stockage des données massives. Tous les composants de cet écosystème seront revus pendant la formation
05
Haute Disponibilité
Les projets les plus critiques nécessitent une haute disponibilité des données et des applications. Communément appelée HA, elle est réalisée en suivant une stratégie bien précise en fonction de chaque besoin.
06
Surveillance du Cluster
Un cluster Hadoop héberge des centaines voir des milliers de TéraBytes de données. Les jobs MapReduce, Tez ou Spark traitent quotidiennement des milliards de lignes de données. Pour réaliser cela une surveillance du cluster et des systèmes doivent être mise en place.
FAQ
à qui est destinée la formation ?
La formation Hadoop Administrator est destinée aux Data Engineers qui souhaitent apprendre l’administration d’un cluster Hadoop. De l’installation à la configuration en passant par la surveillance du cluster, toutes les notions d’administration sont revues
où se déroule la formation ?
Nos formations se déroulent soit dans l’un de nos locaux à Paris soit dans les locaux de votre entreprise
Faut il avoir une connaissance Hadoop ?
Une connaissance basique de l’écosystème Hadoop est nécessaire pour mieux suivre cette formation. Si cela n’est pas le cas nous vous conseillons d’abord de suivre notre formation Hadoop Developper
Comment s'inscrire à la formation ?
Si vous êtes une entreprise contactez nous par email et nous planifierons avec vous votre formation sous 2H
Voulez-vous former vos collaborateurs avec nous ?
Contactez-nous par email avec le détail de votre besoin, nous planifierons votre formation sous 2h.