Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
1 : HDFS (17%)
- Décrire la fonction des démons HDFS
- Décrire le fonctionnement normal d'un cluster Apache Hadoop, tant au niveau du stockage que du traitement des données.
- Identifier les caractéristiques actuelles des systèmes informatiques qui motivent un système comme Apache Hadoop.
- Classer les principaux objectifs de la conception de HDFS
- Compte tenu d'un scénario, identifier le cas d'utilisation approprié pour la fédération HDFS
- Identifier les composants et les démons d'un cluster HDFS HA-Quorum
- Analyser le rôle de la sécurité HDFS (Kerberos)
- Déterminer le meilleur choix de sérialisation des données pour un scénario donné
- Décrire les chemins de lecture et d'écriture des fichiers
- Identifier les commandes pour manipuler les fichiers dans le Hadoop File System Shell
2 : YARN et MapReduce version 2 (MRv2) (17%)
- Comprendre comment la mise à jour d'un cluster de Hadoop 1 à Hadoop 2 affecte les paramètres du cluster
- Comprendre comment déployer MapReduce v2 (MRv2 / YARN), y compris tous les démons YARN
- Comprendre la stratégie de conception de base pour MapReduce v2 (MRv2)
- Déterminer comment YARN gère les allocations de ressources
- Identifier le flux de travail d'une tâche MapReduce exécutée sur YARN
- Déterminer quels fichiers vous devez modifier et comment afin de migrer un cluster de MapReduce version 1 (MRv1) à MapReduce version 2 (MRv2) fonctionnant sur YARN.
3 : Hadoop Planification du cluster (16%)
- Principaux points à prendre en compte dans le choix du matériel et des systèmes d'exploitation pour héberger un cluster Apache Hadoop.
- Analyser les choix dans la sélection d'un système d'exploitation
- Comprendre le réglage du noyau et l'échange de disques.
- Compte tenu d'un scénario et d'une charge de travail, identifier une configuration matérielle adaptée au scénario.
- Compte tenu d'un scénario, déterminer les composants de l'écosystème que votre grappe doit exécuter pour respecter l'accord de niveau de service (SLA).
- Dimensionnement de la grappe : compte tenu d'un scénario et de la fréquence d'exécution, identifier les spécificités de la charge de travail, y compris l'unité centrale, la mémoire, le stockage, les entrées/sorties de disque.
- Dimensionnement et configuration des disques : JBOD ou RAID, SAN, virtualisation et exigences en matière de dimensionnement des disques dans un cluster.
- Topologies de réseau : comprendre l'utilisation du réseau dans Hadoop (pour HDFS et MapReduce) et proposer ou identifier les composants clés de la conception du réseau pour un scénario donné.
4 : Hadoop Installation et administration d'un cluster (25%)
- A partir d'un scénario, identifier comment le cluster va gérer les pannes de disques et de machines.
- Analyser une configuration de journalisation et le format d'un fichier de configuration de journalisation
- Comprendre les bases des métriques Hadoop et de la surveillance de l'état des clusters
- Identifier la fonction et l'objectif des outils disponibles pour la surveillance des clusters
- Être capable d'installer tous les composants de l'écosystème dans CDH 5, y compris (mais sans s'y limiter) : Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive et Pig
- Identifier la fonction et l'objectif des outils disponibles pour gérer le système de fichiers Apache Hadoop.
5 : Ressources Management (10%)
- Comprendre les objectifs généraux de conception de chacun des ordonnanceurs Hadoop.
- A partir d'un scénario, déterminer comment l'ordonnanceur FIFO alloue les ressources d'un cluster
- Dans le cadre d'un scénario, déterminer comment l'ordonnanceur Fair Scheduler alloue les ressources des clusters sous YARN
- Compte tenu d'un scénario, déterminer comment l'ordonnanceur Capacity Scheduler alloue les ressources du cluster.
6 : Surveillance et journalisation (15%)
- Comprendre les fonctions et les caractéristiques des capacités de collecte de métriques de Hadoop.
- Analyser les interfaces Web NameNode et JobTracker
- Comprendre comment surveiller les Daemons du cluster
- Identifier et surveiller l'utilisation du CPU sur les noeuds maîtres
- Décrire comment surveiller l'allocation de swap et de mémoire sur tous les nœuds
- Identifier comment visualiser et gérer les fichiers journaux de Hadoop.
- Interpréter un fichier journal
Pré requis
- Compétences de base en administration Linux.
- Compétences de base en programmation
35 Heures
Nos clients témoignent (3)
I genuinely enjoyed the many hands-on sessions.
Jacek Pieczatka
Formation - Administrator Training for Apache Hadoop
Traduction automatique
I genuinely enjoyed the big competences of Trainer.
Grzegorz Gorski
Formation - Administrator Training for Apache Hadoop
Traduction automatique
I mostly liked the trainer giving real live Examples.
Simon Hahn
Formation - Administrator Training for Apache Hadoop
Traduction automatique