Développer des applications pour Hadoop 2.X Hortonworks avec Java

4 jours (28 heures) - 2550 Euros HT

Certification: 280 Euros HT

 Formation Perspectives et évolution de la DSI

PROGRAMME

Jour 1

COMPRENDRE HADOOP 2.X ET HDFS

• Hadoop et Hadoop 2.X

• Le système de gestion de ressources et de cluster YARN

• Le système de fichiers distribué HDFS
- Prise en main de l’environnement de développement Hadoop et accès aux fichiers HDFS

ECRIRE DES APPLICATIONS MAPREDUCE

• Illustration avec un exemple simple

• Grands principes du framework MapReduce

• MapReduce sur YARN
- Développement de programmes MapReduce

LES AGRÉGATIONS AVEC MAPREDUCE

• Utilisation des combiners

• Utilisation de l’in-map agrégation
- Mise en pratique de l’agrégation à travers deux exemples


Jour 2


PARTITIONNEMENT ET TRI

• Le partitioner de MapReduce

• Analyse et compréhension du Secondary Sort
- Implémentation de deux types de Partitioner
- Implémentation du Secondary Sort à travers un cas pratique

INPUT ET OUTPUT FORMATS

• Récapitulatifs des formats d’entrée et de sortie standards MapReduce

• Analyse du fonctionnement d’un input format
- Implémentations d’un input format et d’un output format

OPTIMISER LES JOBS MAPREDUCE

• Optimisation des différentes phases d’un programme MapReduce

• Utilisation et paramétrage de la compression

• Utilisation des comparateurs de données non sérialisées
- Illustration du principe de la compression de données
- Implémentation d’un RawComparator


Jour 3


FONCTIONNALITÉS AVANCÉES DE MAPREDUCE

• Localisation partagée des données

• Les différents types de jointure

• Les filtres de Bloom
- Illustration d’une jointure côté Map
- Illustration de l’utilisation d’un filtre de Bloom

TESTER UNITAIREMENT SON CODE

• Présentation de la librairie MRUnit
- Ecriture de tests unitaires

PROGRAMMATION HBASE

• Architecture de HBase

• Interactions avec HBase
- Import de données avec HBase
- Illustration d’un job MapReduce avec HBase


Jour 4


PROGRAMMATION PIG

• Types et mots-clés dans Pig

• Extension de Pig via les classes définies par l’utilisateur (UDF)
- Implémentation d’une UDF
- Implémentation d’une UDF

PROGRAMMATION HIVE

• Types et mots-clés dans Hive

• Extension de Hive via les classes définies par l’utilisateur (UDF)

CRÉER ET UTILISER UN WORKFLOW OOZIE

• Workflow et coordinateur Oozie

• Actions possibles avec Oozie

OBJECTIF

Identifier et définir les différents composants de l’écosystème Hadoop
Appréhender l’architecture de Hadoop 2.X
Mettre en application les techniques avancées MapReduce
Analyser un use case métier et valoriser les données correspondantes

PUBLIC

Architecte
Développeur
Analyste

PRÉREQUIS

Bonne connaissance du langage Java

Demande d'informations


Liste des sous-pages