Plan du cours

1 : HDFS (17%)

  • Décrire la fonction des démons HDFS
  • Décrire le fonctionnement normal d'un cluster Apache Hadoop, tant au niveau du stockage que du traitement des données.
  • Identifier les caractéristiques actuelles des systèmes informatiques qui motivent un système comme Apache Hadoop.
  • Classer les principaux objectifs de la conception de HDFS
  • Compte tenu d'un scénario, identifier le cas d'utilisation approprié pour la fédération HDFS
  • Identifier les composants et les démons d'un cluster HDFS HA-Quorum
  • Analyser le rôle de la sécurité HDFS (Kerberos)
  • Déterminer le meilleur choix de sérialisation des données pour un scénario donné
  • Décrire les chemins de lecture et d'écriture des fichiers
  • Identifier les commandes pour manipuler les fichiers dans le Hadoop File System Shell

2 : YARN et MapReduce version 2 (MRv2) (17%)

  • Comprendre comment la mise à jour d'un cluster de Hadoop 1 à Hadoop 2 affecte les paramètres du cluster
  • Comprendre comment déployer MapReduce v2 (MRv2 / YARN), y compris tous les démons YARN
  • Comprendre la stratégie de conception de base pour MapReduce v2 (MRv2)
  • Déterminer comment YARN gère les allocations de ressources
  • Identifier le flux de travail d'une tâche MapReduce exécutée sur YARN
  • Déterminer quels fichiers vous devez modifier et comment afin de migrer un cluster de MapReduce version 1 (MRv1) à MapReduce version 2 (MRv2) fonctionnant sur YARN.

3 : Hadoop Planification du cluster (16%)

  • Principaux points à prendre en compte dans le choix du matériel et des systèmes d'exploitation pour héberger un cluster Apache Hadoop.
  • Analyser les choix dans la sélection d'un système d'exploitation
  • Comprendre le réglage du noyau et l'échange de disques.
  • Compte tenu d'un scénario et d'une charge de travail, identifier une configuration matérielle adaptée au scénario.
  • Compte tenu d'un scénario, déterminer les composants de l'écosystème que votre grappe doit exécuter pour respecter l'accord de niveau de service (SLA).
  • Dimensionnement de la grappe : compte tenu d'un scénario et de la fréquence d'exécution, identifier les spécificités de la charge de travail, y compris l'unité centrale, la mémoire, le stockage, les entrées/sorties de disque.
  • Dimensionnement et configuration des disques : JBOD ou RAID, SAN, virtualisation et exigences en matière de dimensionnement des disques dans un cluster.
  • Topologies de réseau : comprendre l'utilisation du réseau dans Hadoop (pour HDFS et MapReduce) et proposer ou identifier les composants clés de la conception du réseau pour un scénario donné.

4 : Hadoop Installation et administration d'un cluster (25%)

  • A partir d'un scénario, identifier comment le cluster va gérer les pannes de disques et de machines.
  • Analyser une configuration de journalisation et le format d'un fichier de configuration de journalisation
  • Comprendre les bases des métriques Hadoop et de la surveillance de l'état des clusters
  • Identifier la fonction et l'objectif des outils disponibles pour la surveillance des clusters
  • Être capable d'installer tous les composants de l'écosystème dans CDH 5, y compris (mais sans s'y limiter) : Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive et Pig
  • Identifier la fonction et l'objectif des outils disponibles pour gérer le système de fichiers Apache Hadoop.

5 : Ressources Management (10%)

  • Comprendre les objectifs généraux de conception de chacun des ordonnanceurs Hadoop.
  • A partir d'un scénario, déterminer comment l'ordonnanceur FIFO alloue les ressources d'un cluster
  • Dans le cadre d'un scénario, déterminer comment l'ordonnanceur Fair Scheduler alloue les ressources des clusters sous YARN
  • Compte tenu d'un scénario, déterminer comment l'ordonnanceur Capacity Scheduler alloue les ressources du cluster.

6 : Surveillance et journalisation (15%)

  • Comprendre les fonctions et les caractéristiques des capacités de collecte de métriques de Hadoop.
  • Analyser les interfaces Web NameNode et JobTracker
  • Comprendre comment surveiller les Daemons du cluster
  • Identifier et surveiller l'utilisation du CPU sur les noeuds maîtres
  • Décrire comment surveiller l'allocation de swap et de mémoire sur tous les nœuds
  • Identifier comment visualiser et gérer les fichiers journaux de Hadoop.
  • Interpréter un fichier journal

Pré requis

  • Compétences de base en administration Linux.
  • Compétences de base en programmation
 35 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires