Python pour la data-science

Un cours complet pour découvrir le langage

Lino Galiana

Insee

9/22/22

Présentation

  • Expérience traitement big-data et NLP:
    • Cours opinionated ;
    • Des conseils et des recommandations issues de l’expérience

Note

  • :
    • pour suivre l’actualité du réseau des data-scientists ;
    • si vous êtes intéressés par travailler dans l’administration ;

Objectifs du cours

  • Pouvoir utiliser Python pour l’ensemble du processus de valorisation des données :
    • Récupérer et structurer des données ;
    • Manipuler ;
    • Visualiser ;
    • Modéliser.
  • Comprendre comment Python sert dans une démarche de recherche ou de production ;
  • S’initier à la question de la reproductibilité (open-source, open-data…) ;
  • Découvrir la pratique moderne de Python dans le monde de la data-science ;
  • Découvrir qu’on peut faire des choses sympa avec Python .

Organisation du cours



  • Cours dure 21h avec des séances de 3h ;
  • Validation avec un projet de fin de semestre
    • Plus de détails dans quelques instants
  • Un canal d’information (non obligatoire) sur Slack Slack

Contenu mis à disposition

  • Des tutoriels et exercices sous format Jupyter Notebook:
    • Possibilité de les tester sur des environnements temporaires d’exécution Onyxia Binder Open In Colab githubdev
    • Possibilité de les visualiser et télécharger au format Jupyter Notebook

      Download nbviewer

Recommandation

Examen

  • Projet collaboratif s’appuyant sur Python répondant à une démarche scientifique et ouverte:
    • Projet disponible sur Github
    • Le projet doit être documenté
  • Sujet libre :
    • Discutez avec votre chargé de TD pour avoir un avis ;

Important

  • Exigence de reproductibilité
    • Projet utilisant des sources open-data ou scrappant des sites publics ;
    • Code doit pouvoir être répliqué par chargé TD ;
    • Pas un projet Kaggle !

Examen

  • Approfondir des aspects du cours:
    • Trois dimensions doivent être présentes dans le projet: manipuler, visualiser ou modéliser ;
    • Plus ou moins loin selon les projets.
  • Exemples de sujets l’an dernier:
    • Suggestions de trajets pour cyclistes ;
    • Création d’un système de réponse automatique aux tweets mentionnant la RATP ;
    • Comparer la performance de modèles de gestion de portefeuille ;

Important

Deadline en janvier 2023, date précisée ultérieurement