Python pour la data science

Lino Galiana

doi:10.5281/zenodo.8229676

Si on associe souvent les data scientists à la mise en oeuvre de modèles d’intelligence artificielle, il est important de ne pas oublier que l’entraînement et l’utilisation de ces modèles ne représente pas forcément le quotidien des data scientists.

En pratique, la récupération de sources de données hétérogènes, la structuration et harmonisation de celles-ci en vue d’une analyse exploratoire préalable à la modélisation ou la visualisation représente une part importante du travail des data scientists. Dans de nombreux environnements c’est même l’essence du travail du data scientist. L’élaboration de modèles pertinents requiert en effet une réflexion approfondie sur les données ; une étape que l’on ne saurait négliger.

Ce cours, comme de nombreuses ressources introductives sur la data science (Wickham, Çetinkaya-Rundel, et Grolemund 2023; VanderPlas 2016; McKinney 2012), proposera donc beaucoup d’éléments sur la manipulation de données, compétence essentielle pour les data scientists.

Les logiciels de programmation orientés autour du concept de base de données sont devenus les outils principaux des data scientists. Le fait de pouvoir appliquer un certain nombre d’opérations standards sur des bases de données, quelle que soit leur nature, permet aux programmeurs d’être plus efficaces que s’ils devaient répéter ces opérations à la main, comme dans Excel.

Tous les langages de programmation dominants dans l’écosystème de la data science reposent sur le principe du dataframe. Il s’agit même d’un objet central dans certains logiciels, notamment R. La logique SQL, un langage de déclaration d’opérations sur des données qui a déjà plus de cinquante ans, offre un cadre pertinent pour effectuer des opérations standardisées sur les colonnes (création de nouvelles colonnes, sélection de sous-ensemble de lignes…).

Néanmoins, le dataframe ne s’est imposé que récemment en Python, grâce au package Pandas créé par Wes McKinney. L’essor de la librairie Pandas (téléchargée plus de 5 millions de fois par jour en 2023) est pour beaucoup dans le succès de Python dans l’écosystème de la data science et a amené, en quelques années, a un renouvellement complet de la manière de coder en Python, ce langage si malléable, autour de l’analyse de données.

Cette partie du cours est une introduction générale à l’écosystème très riche de la manipulation de données avec Python. Ces chapitres évoquent aussi bien la récupération de données que la restructuration et la production d’analyse à partir de celles-ci.

Résumé de cette partie

Pandas est devenu incontournable dans l’écosystème Python pour la data science. Pandas est lui-même construit à partir du package Numpy, qu’il est utile de comprendre pour être à l’aise avec Pandas. Numpy est une librairie bas-niveau pour stocker et manipuler des données. Numpy est au coeur de l’écosystème de la data science car la plupart des librairies, même celles qui manient des objets destructurés, utilisent des objets construits à partir de Numpy¹.

L’approche Pandas, qui offre un point d’entrée harmonisé pour manipuler des jeux de données de nature très différente, a été étendue aux objets géographiques avec Geopandas. Il est ainsi possible de manipuler des données géographiques comme s’il s’agissait de données structurées classiques. Les données géographiques et la représentation cartographique deviennent de plus en plus commun avec la multiplication de données ouvertes localisées et de big-data géolocalisées.

Cependant, les données structurées, importées depuis des fichiers plats ne représentent pas l’unique source de données. Les API et le webscraping permettent de télécharger ou d’extraire des données de manière très flexible depuis des pages web ou des guichets spécialisés. Ces données, notamment celles obtenues par webscraping nécessitent souvent un peu plus de travail de nettoyage de données, notamment des chaînes de caractère.

L’écosystème Pandas représente donc un couteau-suisse pour l’analyse de données. C’est pour cette raison que ce cours développera beaucoup de contenu dessus. Avant d’essayer de mettre en oeuvre une solution ad hoc, il est souvent utile de se poser la question suivante : “ne pourrais-je pas le faire avec les fonctionnalités de base de Pandas ?” Se poser cette question peut éviter des chemins ardus et faire économiser beaucoup de temps.

Néanmoins, Pandas n’est pas adapté à des données ayant une volumétrie importante. Pour traiter de telles données, il est plutôt recommandé de privilégier Polars ou Dask qui reprennent la logique de Pandas mais optimisent son fonctionnement, Spark si on a une infrastructure adaptée, généralement dans des environnements big data, ou DuckDB si on est prêt à utiliser des requêtes SQL plutôt qu’une librairie haut-niveau.

Exercices

Cette partie présente à la fois des tutoriels détaillés et des exercices guidés. Il est possible de les consulter sur ce site ou d’utiliser l’un des badges présents en début de chapitre, par exemple ceux-ci pour ouvrir le chapitre d’exercices sur Pandas:

Pour aller plus loin

Ce cours n’aborde pas vraiment les questions de volumétrie ou de vitesse de calcul. Pandas peut montrer ses limites dans ce domaine sur des jeux de données d’une volumétrie conséquente (plusieurs Gigas).

Il est ainsi intéressant de porter attention à:

Le livre Modern Pandas pour obtenir des éléments supplémentaires sur la question de la performance avec Pandas ;
La question des objets sparse ;
Les packages Dask ou Polars pour accélérer les calculs ;
DuckDB pour effectuer de manière très efficace des requêtes SQL ;
PySpark pour des données très volumineuses.

Références

Voici une bibliographie sélective des ouvrages intéressants en complément des chapitres de la partie “Manipulation” de ce cours :

McKinney, Wes. 2012. Python for data analysis: Data wrangling with Pandas, NumPy, and IPython. " O’Reilly Media, Inc.".

VanderPlas, Jake. 2016. Python data science handbook: Essential tools for working with data. " O’Reilly Media, Inc.".

Wickham, Hadley, Mine Çetinkaya-Rundel, et Garrett Grolemund. 2023. R for data science. " O’Reilly Media, Inc.".

Informations additionnelles

Environnement Python

Ce site a été construit automatiquement par le biais d’une action Github utilisant le logiciel de publication reproductible Quarto (version 1.7.33).

L’environnement utilisé pour obtenir les résultats est reproductible par le biais d’uv. Le fichier pyproject.toml utilisé pour construire cet environnement est disponible sur le dépôt linogaliana/python-datascientist

pyproject.toml

[project]
name = "python-datascientist"
version = "0.1.0"
description = "Source code for Lino Galiana's Python for data science course"
readme = "README.md"
requires-python = ">=3.12,<3.13"
dependencies = [
    "altair==5.4.1",
    "black==24.8.0",
    "cartiflette",
    "contextily==1.6.2",
    "duckdb>=0.10.1",
    "folium>=0.19.6",
    "geoplot==0.5.1",
    "graphviz==0.20.3",
    "great-tables==0.12.0",
    "ipykernel>=6.29.5",
    "jupyter>=1.1.1",
    "jupyter-cache==1.0.0",
    "kaleido==0.2.1",
    "langchain-community==0.3.9",
    "loguru==0.7.3",
    "markdown>=3.8",
    "nbclient==0.10.0",
    "nbformat==5.10.4",
    "nltk>=3.9.1",
    "pip>=25.1.1",
    "plotly>=6.1.2",
    "plotnine==0.13.6",
    "polars==1.8.2",
    "pyarrow==17.0.0",
    "pynsee==0.1.8",
    "python-dotenv==1.0.1",
    "pywaffle==1.1.1",
    "requests>=2.32.3",
    "scikit-image==0.24.0",
    "scipy==1.13.0",
    "spacy==3.8.4",
    "webdriver-manager==4.0.2",
    "wordcloud==1.9.3",
    "xlrd==2.0.1",
    "yellowbrick==1.5",
]

[tool.uv.sources]
cartiflette = { git = "https://github.com/inseefrlab/cartiflette" }

Pour utiliser exactement le même environnement (version de Python et packages), se reporter à la documentation d’uv.

Historique du fichier

md`Ce fichier a été modifié __${table_commit.length}__ fois depuis sa création le ${creation_string} (dernière modification le ${last_modification_string})`

html`<div>${git_history_table}</div>`

html`<div>${git_history_plot}</div>`

SHA	Date	Author	Description
7006f605	2025-07-28 14:20:47	Lino Galiana	Une première PR qui gère plein de bugs détectés par Nicolas (#630)
91431fa2	2025-06-09 17:08:00	Lino Galiana	Improve homepage hero banner (#612)
5f08b572	2024-08-29 10:33:57	Lino Galiana	Traduction de l’introduction (#551)
005d89b8	2023-12-20 17:23:04	Lino Galiana	Finalise l’affichage des statistiques Git (#478)
1f23de28	2023-12-01 17:25:36	Lino Galiana	Stockage des images sur S3 (#466)
69cf52bd	2023-11-21 16:12:37	Antoine Palazzolo	[On-going] Suggestions chapitres modélisation (#452)
154f09e4	2023-09-26 14:59:11	Antoine Palazzolo	Des typos corrigées par Antoine (#411)
9a4e2267	2023-08-28 17:11:52	Lino Galiana	Action to check URL still exist (#399)
80823022	2023-08-25 17:48:36	Lino Galiana	Mise à jour des scripts de construction des notebooks (#395)
3bdf3b06	2023-08-25 11:23:02	Lino Galiana	Simplification de la structure 🤓 (#393)
5d4874a8	2023-08-11 15:09:33	Lino Galiana	Pimp les introductions des trois premières parties (#387)
8e5edba6	2022-09-02 11:59:57	Lino Galiana	Ajoute un chapitre dask (#264)
f10815b5	2022-08-25 16:00:03	Lino Galiana	Notebooks should now look more beautiful (#260)
d201e3cd	2022-08-03 15:50:34	Lino Galiana	Pimp la homepage ✨ (#249)
12965bac	2022-05-25 15:53:27	Lino Galiana	:launch: Bascule vers quarto (#226)
5cac236e	2021-12-16 19:46:43	Lino Galiana	un petit mot sur mercator (#201)
4cdb759c	2021-05-12 10:37:23	Lino Galiana	:sparkles: :star2: Nouveau thème hugo :snake: :fire: (#105)
0a0d0348	2021-03-26 20:16:22	Lino Galiana	Ajout d’une section sur S3 (#97)
4677769b	2020-09-15 18:19:24	Lino Galiana	Nettoyage des coquilles pour premiers TP (#37)
d48e68fa	2020-09-08 18:35:07	Lino Galiana	Continuer la partie pandas (#13)
913047d3	2020-09-08 14:44:41	Lino Galiana	Harmonisation des niveaux de titre (#17)

creation = d3.min(
  table_commit.map(d => new Date(d.Date))
)

last_modification = d3.max(
  table_commit.map(d => new Date(d.Date))
)

creation_string = creation.toLocaleString("fr", {
  "day": "numeric",
  "month": "long",
  "year": "numeric"
})

last_modification_string = last_modification.toLocaleString("fr", {
  "day": "numeric",
  "month": "long",
  "year": "numeric"
})

git_history_table = Inputs.table(
  table_commit,
  {
    format: {
      SHA: x => md`[${x}](${github_repo}/commit/${x})`,
      Description: x => md`${replacePullRequestPattern(x, github_repo)}`,
      /*Date: x => x.toLocaleString("fr", {
        "month": "numeric",
        "day": "numeric",
        "year": "numeric"
        })
      */
    }
  }
)

git_history_plot = Plot.plot({
  marks: [
    Plot.ruleY([0], {stroke: "royalblue"}),
    Plot.dot(
          table_commit,
          Plot.pointerX({x: (d) => new Date(d.date), y: 0, stroke: "red"})),
    Plot.dot(table_commit, {x: (d) => new Date(d.Date), y: 0, fill: "royalblue"})
  ]
})

function replacePullRequestPattern(inputString, githubRepo) {
    // Use a regular expression to match the pattern #digit
    var pattern = /#(\d+)/g;

    // Replace the pattern with ${github_repo}/pull/#digit
    var replacedString = inputString.replace(pattern, '[#$1](' + githubRepo + '/pull/$1)');

    return replacedString;
}

github_repo = "https://github.com/linogaliana/python-datascientist"

table_commit = {

// Get the HTML table by its class name
var table = document.querySelector('.commit-table');

// Check if the table exists
if (table) {
    // Initialize an array to store the table data
    var dataArray = [];

    // Extract headers from the first row
    var headers = [];
    for (var i = 0; i < table.rows[0].cells.length; i++) {
        headers.push(table.rows[0].cells[i].textContent.trim());
    }

    // Iterate through the rows, starting from the second row
    for (var i = 1; i < table.rows.length; i++) {
        var row = table.rows[i];
        var rowData = {};

        // Iterate through the cells in the row
        for (var j = 0; j < row.cells.length; j++) {
            // Use headers as keys and cell content as values
            rowData[headers[j]] = row.cells[j].textContent.trim();
        }

        // Push the rowData object to the dataArray
        dataArray.push(rowData);
    }
  }

  return dataArray

}

// Get the element with class 'git-details'
{
  var gitDetails = document.querySelector('.commit-table');

  // Check if the element exists
  if (gitDetails) {
      // Hide the element
      gitDetails.style.display = 'none';
  }
}

Plot = require('@observablehq/plot@0.6.12/dist/plot.umd.min.js')

Retour au sommet

Notes de bas de page

Some libraries are gradually moving away from Numpy, which is not always the most suitable for managing certain types of data. The Arrow framework is becoming the lower layer used by more and more data science libraries. This blog post provides a detailed explanation of this topic.↩︎

Citation

BibTeX

@book{galiana2023,
  author = {Galiana, Lino},
  title = {Python pour la data science},
  date = {2023},
  url = {https://pythonds.linogaliana.fr/},
  doi = {10.5281/zenodo.8229676},
  langid = {fr}
}

Veuillez citer ce travail comme suit :

Galiana, Lino. 2023. Python pour la data science. https://doi.org/10.5281/zenodo.8229676.