Partie 5: Introduction aux outils et méthodes à l'état de l'art

Les parties précédentes étaient très tournées sur l’acquisition de compétences minimales dans chaque domaine de l’analyse de données. Cette partie propose des éléments plus avancés mais plus représentatifs du travail quotidien du data-scientist. Cette partie présente la manière dont Python peut être utilisé dans une architecture moderne de type cloud. Elle illustre la manière dont Python peut servir de couteau-suisse faisant l’interface entre différents langages plus efficaces ou plusieurs types de données.

Cette partie est en cours de construction et présentera les éléments suivants:

  • S3
  • Intégration continue
  • Elastic
  • Spark
  • Pipelines
  • MLops

Contenu de la partie

  • Intégration continue avec Python

    L’un des apports principaux des innovations récentes de la data-science est la manière dont des projets, malgré leur complexité, peuvent facilement être converti en projets pérennes à partir d’un prototype bien construit.

  • Les nouveaux modes d'accès aux données: le format parquet et les données sur le cloud

    Dans les entreprises et administrations, un nombre croissant d’infrastructure se basent sur des clouds, qui sont des sessions non persistentes où les données ne sont pas stockées dans les mêmes serveurs que les machines qui exécutent du code. L’une des technologies dominantes dans le domaine est un système de stockage nommé S3, développé par Amazon. Python, à travers plusieurs packages (notamment boto3, s3fs ou pyarrow), permet d’utiliser ce système de stockage distant comme si on accédait à des fichiers depuis son poste personnel. Cette révolution est étroitement associée à l’émergence du format de données Apache Parquet, format utilisable en Python par le biais du package pyarrow ou avec Spark et présentant de nombreux avantages pour l’analyse de données (vitesse d’import, possibilité de traiter des données plus volumineuses que la RAM…)

  • Introduction à ElasticSearch pour la recherche textuelle

    ElasticSearch est un moteur de recherche extrêmement rapide et flexible. Cette technologie s’est imposée dans le domaine du traitement des données textuelles. L’API Python permet d’intégrer cette technologie dans des processus Python afin de les accélérer. Ce chapitre présente cette intégration d’ Elastic avec l’exemple de la recherche dans les données alimentaires de l’ OpenFoodFacts Database

  • Approfondissement ElasticSearch pour des recherches de proximité géographique

    TO BE COMPLETED

  • Génération d'images avec Python et DALL-E

    La hype autour du modèle de génération d’image Dall-E a amené une grande attention sur les modèles autogénératifs de contenu. Dall-E est, à l’heure actuelle, le modèle le plus célèbre de génération d’image à partir de texte. Il est maintenant possible de créer, depuis Python grâce à l’implémentation de StableDiffusion, soit-même ses propres images rigolotes.