Plan du cours
- Introduction
- Hadoop histoire, concepts
- Ecosystème
- Distributions
- Architecture de haut niveau
- Hadoop mythes
- Hadoop défis (matériel / logiciel)
- Labos : discutez de vos Big Data projets et problèmes
- Planification et installation
- Sélection des logiciels, Hadoop distributions
- Dimensionnement du cluster, planification de la croissance
- Sélection du matériel et du réseau
- Topologie du rack
- L'installation
- Multi-tenance
- Structure des répertoires, journaux
- Benchmarking
- Labs : installation d'un cluster, tests de performance
- Opérations HDFS
- Concepts (mise à l'échelle horizontale, réplication, localité des données, prise en compte des racks)
- Nœuds et démons (NameNode, NameNode secondaire, HA Standby NameNode, DataNode)
- Surveillance de l'état de santé
- Administration en ligne de commande et par navigateur
- Ajout de stockage, remplacement des disques défectueux
- Travaux pratiques : se familiariser avec les lignes de commande HDFS
- Ingestion de données
- Flume pour l'ingestion de logs et d'autres données dans HDFS
- Sqoop pour l'importation de bases de données SQL vers HDFS, ainsi que l'exportation vers SQL.
- Hadoop entreposage de données avec Hive
- Copie de données entre clusters (distcp)
- Utilisation de S3 en complément de HDFS
- Meilleures pratiques et architectures d'ingestion de données
- Labos : mise en place et utilisation de Flume, idem pour Sqoop
- Opérations et administration de MapReduce
- Le calcul parallèle avant mapreduce : comparer l'administration HPC vs Hadoop.
- Charges des clusters MapReduce
- Nœuds et Daemons (JobTracker, TaskTracker)
- Visite de l'interface MapReduce
- Configuration de Mapreduce
- Configuration des tâches
- Optimisation de MapReduce
- MR à l'épreuve des erreurs : ce qu'il faut dire à vos programmeurs
- Labs : exemples d'exécution de MapReduce
- YARN : nouvelle architecture et nouvelles capacités
- Objectifs de conception de YARN et architecture de mise en œuvre
- Nouveaux acteurs : ResourceManager, NodeManager, Application Master
- Installation de YARN
- Planification des tâches sous YARN
- Travaux pratiques : étudier l'ordonnancement des tâches
- Sujets avancés
- Surveillance du matériel
- Surveillance des clusters
- Ajout et suppression de serveurs, mise à niveau Hadoop.
- Sauvegarde, récupération et planification de la continuité des activités
- Flux de travaux Oozie
- Hadoop Haute disponibilité (HA)
- Hadoop Fédération
- Sécurisation de votre cluster avec Kerberos
- Labos : mise en place de la surveillance
- Pistes optionnelles
- Cloudera Manager pour l'administration du cluster, la surveillance et les tâches de routine ; installation, utilisation. Dans ce cours, tous les exercices et laboratoires sont réalisés dans l'environnement de distribution Cloudera (CDH5).
- Ambari pour l'administration des clusters, la surveillance et les tâches de routine ; installation, utilisation. Dans ce cours, tous les exercices et les laboratoires sont réalisés avec le gestionnaire de cluster Ambari et Hortonworks Data Platform (HDP 2.0).
Pré requis
- être à l'aise avec l'administration de base Linux du système
- des compétences de base en écriture de scripts
La connaissance de Hadoop et de l'informatique distribuée n'est pas requise, mais elle sera présentée et expliquée dans le cours.
Environnement de laboratoire
Zéro installation : Il n'est pas nécessaire d'installer le logiciel Hadoop sur les machines des étudiants ! Un cluster Hadoop fonctionnel sera fourni aux étudiants.
Les étudiants auront besoin des éléments suivants
- un client SSH (Linux et Mac ont déjà des clients SSH, pour Windows Putty est recommandé)
- un navigateur pour accéder au cluster. Nous recommandons le navigateur Firefox avec l'extension FoxyProxy installée.
Nos clients témoignent (5)
Les exemples en direct
Ahmet Bolat - Accenture Industrial SS
Formation - Python, Spark, and Hadoop for Big Data
Traduction automatique
Pendant les exercices, James m'a expliqué chaque étape en détail là où j'étais bloqué. Je n'avais aucune expérience avec NIFI au départ. Il m'a expliqué le véritable objectif de NIFI, y compris des notions de base comme le code source ouvert. Il a couvert tous les concepts de Nifi, du niveau débutant au niveau développeur.
Firdous Hashim Ali - MOD A BLOCK
Formation - Apache NiFi for Administrators
Traduction automatique
Préparation et organisation du formateur, et qualité des matériaux fournis sur GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Formation - Impala for Business Intelligence
Traduction automatique
Que je l'aie eu dans un premier temps.
Peter Scales - CACI Ltd
Formation - Apache NiFi for Developers
Traduction automatique
les choses pratiques à faire, ainsi que la théorie qui a été bien expliquée par Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Formation - Hadoop Administration on MapR
Traduction automatique