- Nous verrons comment modéliser le problème de la reconnaissance optique de caractère
IDENTIFIER LES FAMILLES D’ALGORITHMES DE MACHINE LEARNING• Analyse supervisée
• Analyse non supervisée
• Classification / régression
SOUS LE CAPOT DES ALGORITHMES : LA RÉGRESSION LINÉAIRE• Quelques rappels : fonction hypothèse, fonction convexe, optimisation
• La construction de la fonction de coût
• Méthode de minimisation : la descente de gradient
SOUS LE CAPOT DES ALGORITHMES : LA RÉGRESSION LOGISTIQUE• Frontière de décision
• La construction d’une fonction de coût convexe pour la classification
LA BOITE À OUTIL DU DATA SCIENTIST• Introduction aux outils
• Introduction à python, pandas et scikit-learn
CAS PRATIQUE N°1 : « PRÉDIRE LES SURVIVANTS DU TITANIC »• Exposé du problème
• Première manipulation en python
Jour 2
RAPPELS ET RÉVISION DU JOUR 1
QU’EST-CE QU’UN BON MODÈLE ?• Cross-validation
• Les métriques d’évaluation : precision, recall, ROC, MAPE, etc.
LES PIÈGES DU MACHINE LEARNING• Overfitting ou sur-apprentissage
• Biais vs variance
• La régularisation : régression Ridge et Lasso
DATA CLEANING• Les types de données : catégorielles, continues, ordonnées, temporelles
• Détection des outliers statistiques, des valeurs aberrantes
• Stratégie pour les valeurs manquantes
• Mise en pratique : « Remplissage des valeurs manquantes»
FEATURE ENGINEERING• Stratégies pour les variables non continues
• Détecter et créer des variables discriminantes
CAS PRATIQUE N°2 : « PRÉDIRE LES SURVIVANTS DU TITANIC »• Identification et création des bonnes variables
• Réalisation d’un premier modèle
• Soumission sur Kaggle
DATA VISUALISATION
• La visualisation pour comprendre les données : histogramme, scatter plot, etc.
• La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc.
INTRODUCTION AUX MÉTHODES ENSEMBLISTES
• Le modèle de base : l’arbre de décision, ses avantages et ses limites
• Présentation des différentes stratégies ensemblistes : bagging, boosting, etc.
• Mise en pratique : « Retour sur le titanic»
- Utilisation d’une méthode ensembliste sur la base du précédent modèle
APPRENTISSAGE SEMI-SUPERVISÉ• Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc.
• Mise en pratique : « Détection d’anomalies dans les prises de paris»
- Nous verrons comment un algorithme non supervisé permet de détecter des fraudes dans les prises de paris
Jour 3
RAPPELS ET RÉVISIONS• Synthèse des points abordés en journées 1 et 2
• Approfondissement des sujets sélectionnés avec l’intervenant
MISE EN PRATIQUE• Le dernier jour est entièrement consacré à des mises en pratique
SÉLECTION ET PARTICIPATION À UNE COMPÉTITION• Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée en jour 3 par l’ensemble des participants