Machine learning for social data

Page du cours “Machine-learning et humanitées” à destination des étudiants de l’École des Chartes, Dauphine, et de l’EHESS. Le prochain cours débutera en Janvier 2023.

Objectif du cours

La science des données moderne a des applications diverses et des impacts dans de nombreux domaines: reconnaissance d’image, détection de mails frauduleux, système de recommandation de produits, prédiction de la disponibilité des lits de réanimation, marketing personnalisé sur des plateformes en ligne, sélection du traitement optimal pour un patient, etc.

De nombreuses professions ont, ou auront, à s’adapter aux conséquences de ces outils: journalistes, juristes, médecins, politiques. Sans devenir expert, s’initier à l’analyse de données, l’usage de langage de programmation, en allant jusqu’à l’implémentation d’un algorithme d’apprentissage automatique (i.e. machine-learning) est une façon de mieux comprendre les enjeux. Aujourd’hui de nombreuses sources de données sont à disposition, mais la pratique reste hermétique pour de nombreuses personnes qui pourtant côtoient ces données. Cette complexité vient de la multitude des domaines en jeu: statistique, langage de programmation, choix des modèles, vocabulaire spécialisés, etc.

L’objectif de ce cours est de doter les étudiants d’une compréhension pratique des sujets liés à la science des données moderne et au machine-learning. À l’issue du cours, les étudiants auront développé une intuition - et surtout expérimenté - certains des concepts clefs des méthodes de d’apprentissage comme l’évaluation d’un modèle prédictif (accuracy, training set, test set, etc), le sur-apprentissage (overfitting), la sélection de modèle (lasso, random-forest, etc). Une partie du cours portera aussi sur l’interprétation des modèles d’apprentissage automatique et ce qu’ils peuvent nous permettre de dire… ou pas !

Les jeux de données proposés pour illustrer les apprentissages seront en lien avec des applications en économie (ex. évolution des prix), marketing (ex. évaluation de produit), politiques publiques (ex. salaires des fonctionnaires), etc.

À la fin du cours les élèves auront eu l’occasion de découvrir deux langages de programmation très communs aujourd’hui: R et Python.

Audience

Ce cours s’adresse à des étudiants dans des cursus non spécialistes des sciences de données, comme en sciences économiques et sociales, sciences politiques, affaires publiques, histoire, humanités, journalisme.

Pré-requis

Ce cours présentera des notions de machine-learning sans assumer aucune connaissance préalable. Bien entendu, toute connaissance des statistiques ou de langages de programmation tels que R ou Python est bienvenue, et ce cours dépassera la seule introduction à ces outils. Nous guiderons les étudiants pour lesquels la prise en main de ces outils est nouvelle lors des séances pratiques, en particulier dès la première séance. Au besoin une séance supplémentaire sera proposée pour guider les élèves nocives dans l’installation des softwares R et Python et leur découverte.

Programme

Le cours se déroulera selon trois grandes parties:

1. Acclimation au langage de programmation et aux outils de descriptions statistiques et de communication et visualisation des données. Cette partie de cours permettra de prendre en main un jeu de données, d’en extraire la structure, de trouver les bonnes représentations y compris en grande dimension (analyse en composante principale, clustering). Cette partie utilisera le langage R.

2. Introduction au machine learning: concepts, sélection de modèles et évaluation, choix d’hyperparamètres, modèles linéaires avec régularisation et de forêt aléatoires Cette partie utilisera le langage Python et la librairie scikit-learn.

3. Cause ou effet ? Dépasser la corrélation. Aujourd’hui de nombreuses données sont collectées avant toute analyse. Or les questions posées (du scientifique ou de l’administrateur publique) sont souvent causales: “Quel est l’effet d’une diminution de la taille de classe sur le progrès des élèves de CP ?” . Nous discuterons donc de quelques idées et méthodes pour répondre à des questions de type “pourquoi ?”, ce qui dépasse la seule prédiction (machine-learning)

Enseignants

  • Julie Josse - Chercheuse sénior à Inria
  • Gaël Varoquaux - Directeur de recherche à Inria - cofondateur de la librairie Scikit-learn
  • Bénédicte Colnet - Doctorante à Inria
  • Lorenzo Gasparollo - Ingénieur de recherche à Inria

Ce que ce cours n’est pas

Ce cours n’est pas un cours de statistique descriptive, ni un substitut à un cours plus général d’économétrie. De la même façon, ce cours n’est pas un cours sur les enjeux stratégiques de l’IA, les conséquences sur les business, les sociétés, ou bien les nouveaux métiers, mais bien un cours pratique visant l’appropriation des outils, et par là de l’esprit.

Modalités pratiques

Langues

Ce cours sera enseigné en anglais ou en français selon les étudiants inscrits.

Validation du cours

Participation et présence aux cours (20%) Examen écrit (30%) Projet ou data-challenge (50%)

Horaires et salles À venir