Tutoriel

Les nouveaux modes d'accès aux données: le format parquet et les données sur le cloud

Dans les entreprises et administrations, un nombre croissant d’infrastructure se basent sur des clouds, qui sont des sessions non persistentes où les données ne sont pas stockées dans les mêmes serveurs que les machines qui exécutent du code. L’une des technologies dominantes dans le domaine est un système de stockage nommé S3, développé par Amazon.

Python, à travers plusieurs packages (notamment boto3, s3fs ou pyarrow), permet d’utiliser ce système de stockage distant comme si on accédait à des fichiers depuis son poste personnel. Cette révolution est étroitement associée à l’émergence du format de données Apache Parquet, format utilisable en Python par le biais du package pyarrow ou avec Spark et présentant de nombreux avantages pour l’analyse de données (vitesse d’import, possibilité de traiter des données plus volumineuses que la RAM…)

Latent Dirichlet Allocation (LDA)
Le modèle Latent Dirichlet Allocation (LDA) est un modèle probabiliste génératif qui permet de décrire des collections de documents de texte ou d’autres types de données discrètes. La LDA fait partie d’une catégorie de modèles appelés “topic models”, qui cherchent à découvrir des structures thématiques cachées dans des vastes archives de documents.