INTRODUCTION AU BIG DATA• Qu’est-ce que Big Data ?
• Les grands enjeux métier
• Paysage technologique : les architectures Big Data
INTRODUCTION À HADOOP• Historique succinct
• Le coeur de la plateforme : HDFS et YARN
• L’écosystème Hadoop
- Frameworks et algorithmes
- Bases de données
- Traitements des données
- Intégration
• Hadoop et la sécurité des données
MANIPULER LA LIGNE DE COMMANDE HADOOP• Présentation des principales commandes
• Mise en pratique « Manipulation et transfert de fichiers en ligne de commande »
UNE INTERFACE UTILISATEUR POUR HADOOP : HUE• Présentation de Hue et de ses modules
• Mise en pratique « Manipulation interactive de données »
INTERROGER HADOOP AVEC DU SQL : HIVE• Présentation de Hive
• Mise en pratique « Manipulation de données avec SQL »
- Créer un modèle de données
- Importer des fichiers sources
- Requêter les données
Jour 2
TRANSFORMER DES DONNÉES : LE LANGAGE PIG• Présentation de Pig
• Mise en pratique « Transformation de données avec Pig »
- Charger des données semi-structurées
- Croiser avec des données Hive
- Sauvegarder le résultat dans HDFS
ECRITURE DE TRAITEMENTS AVANCÉS• Présentation du framework Hadoop Streaming
• Présentation express du langage Python et du squelette de programme pour l’exercice
• Mise en pratique « Ecriture d’un programme de manipulation complexe »
COMPOSITION ET ORDONNANCEMENT DE TRAITEMENTS• Présentation d’Oozie
• Mise en pratique « Création d’un pipeline de traitement de données »