Introduction à la science des données (ISD)

Ce cours est une introduction au domaine de la science des données et aux méthodologies utilisées pour résoudre les problèmes. À la fin de cette unité, les étudiants seront capables de : identifier les problèmes liés à l’apprentissage automatique, différencier les différents types de problèmes d’apprentissage et les approches correspondantes (apprentissage supervisé et non supervisé), formuler des problèmes en termes de tâches d’apprentissage et choisir une méthode appropriée, utiliser des bibliothèques de calcul scientifique pour analyser les données et créer des modèles, et interpréter les résultats de manière critique.

Contenu du cours

  • Introduction à la science des données
  • Outils pour la modélisation « data-driven »
  • Calcul scientifique
  • Machine Learning
  • Analyse exploratoire des données
  • Apprentissage supervisé: algorithme des k plus proches voisins (k-NN ou k-Nearest Neighbors)
  • Evaluation des modèles
  • Apprentissage supervisé: algorithme LVQ (Learning Vector Quantization)
  • Régression linéaire, méthode du gradient descent
  • Caractéristiques des données
  • Apprentissage non supervisé (k-means et k-means++)

Séries d’exercices

  • Série 1

Laboratoires

  • TP0: Introduction et lancement. Installation d’Anaconda et de Jupyter
  • TP1: Introduction au langage de programmation Python et aux outils d’analyse de données
  • TP2: Outils pour le calcul scientifique
  • TP3: Analyse exploratoire des données
  • TP4: Modèles et évaluations
  • TP5: Régression linéaire
  • TP6: Clustering et apprentissage non supervisé

Contrôle de connaissances

  • Cours : l’acquisition de la matière de cet enseignement sera contrôlée au fur et à mesure par des travaux écrits individuels tout au long de son déroulement. Il y aura au moins 2 tests d’une durée totale d’au moins 2 périodes.
  • Laboratoire : ils seront évalués sur la base des rapports de manipulation, à 3 reprises au minimum.
  • Examen : L’atteinte de l’ensemble des objectifs de formation sera vérifiée lors d’un contrôle final commun écrit d’une durée de 90 minutes.

Moodle