Dans les entreprises et administrations, un nombre croissant
d’infrastructure se basent sur des clouds, qui sont des sessions
non persistentes où les données ne sont pas stockées dans les mêmes
serveurs que les machines qui exécutent du code. L’une des technologies
dominantes dans le domaine est un système de stockage nommé S3
,
développé par Amazon.
Python
, à travers plusieurs packages (notamment boto3
, s3fs
ou pyarrow
),
permet d’utiliser ce système de stockage distant comme si on
accédait à des fichiers depuis son poste personnel. Cette révolution est
étroitement associée à l’émergence du format de
données Apache Parquet
, format utilisable en
Python
par le biais du package pyarrow
ou avec Spark
et présentant
de nombreux avantages pour l’analyse de données (vitesse d’import, possibilité de traiter
des données plus volumineuses que la RAM…)
LDA
fait
partie d’une catégorie de modèles appelés “topic models”, qui cherchent à découvrir des structures
thématiques cachées dans des vastes archives de documents.