Les nouveaux modes d’accès aux données : le format Parquet et les données sur le cloud

Le format Parquet est un format de données connaissant une popularité importante du fait de ses caractéristiques techniques (orientation colonne, compression, interopérabilité…), de sa nature open source et du riche écosystème associé dont les frameworks les plus proéminents sont Arrow et DuckDB. A ces nombreux avantages s’ajoutent une intégration native aux infrastructures cloud basées sur S3, des extensions nombreuses pour traiter des données complexes comme les données géographiques ou, plus récemment, le portage en WASM de DuckDB permettant de construire des applications réactives impliquant des transformations de données directement depuis le navigateur.

Tutoriel
Avancé
Auteur·rice

Lino Galiana

Date de publication

2025-06-18

Chapitre déplacé

Le programme du cours a été modifié. Ce chapitre se trouve maintenant dans la partie Manipulation de données

Informations additionnelles

environment files have been tested on.

Python version used:

Package Version
affine 2.4.0
aiobotocore 2.22.0
aiohappyeyeballs 2.6.1
aiohttp 3.11.18
aioitertools 0.12.0
aiosignal 1.3.2
altair 5.4.1
annotated-types 0.7.0
anyio 4.9.0
appdirs 1.4.4
argon2-cffi 25.1.0
argon2-cffi-bindings 21.2.0
arrow 1.3.0
asttokens 3.0.0
async-lru 2.0.5
attrs 25.3.0
babel 2.17.0
beautifulsoup4 4.13.4
black 24.8.0
bleach 6.2.0
blis 1.3.0
boto3 1.37.3
botocore 1.37.3
branca 0.8.1
Brotli 1.1.0
bs4 0.0.2
cartiflette 0.0.3
Cartopy 0.24.1
catalogue 2.0.10
cattrs 24.1.3
certifi 2025.4.26
cffi 1.17.1
charset-normalizer 3.4.2
chromedriver-autoinstaller 0.6.4
click 8.2.1
click-plugins 1.1.1
cligj 0.7.2
cloudpathlib 0.21.1
comm 0.2.2
commonmark 0.9.1
confection 0.1.5
contextily 1.6.2
contourpy 1.3.2
cycler 0.12.1
cymem 2.0.11
dataclasses-json 0.6.7
debugpy 1.8.14
decorator 5.2.1
defusedxml 0.7.1
diskcache 5.6.3
duckdb 1.3.0
en_core_web_sm 3.8.0
et_xmlfile 2.0.0
executing 2.2.0
fastexcel 0.14.0
fastjsonschema 2.21.1
fiona 1.10.1
folium 0.19.6
fontawesomefree 6.6.0
fonttools 4.58.0
fqdn 1.5.1
fr_core_news_sm 3.8.0
frozenlist 1.6.0
fsspec 2025.5.0
geographiclib 2.0
geopandas 1.0.1
geoplot 0.5.1
geopy 2.4.1
graphviz 0.20.3
great-tables 0.12.0
greenlet 3.2.2
h11 0.16.0
htmltools 0.6.0
httpcore 1.0.9
httpx 0.28.1
httpx-sse 0.4.0
idna 3.10
imageio 2.37.0
importlib_metadata 8.7.0
importlib_resources 6.5.2
inflate64 1.0.1
ipykernel 6.29.5
ipython 9.3.0
ipython_pygments_lexers 1.1.1
ipywidgets 8.1.7
isoduration 20.11.0
jedi 0.19.2
Jinja2 3.1.6
jmespath 1.0.1
joblib 1.5.1
json5 0.12.0
jsonpatch 1.33
jsonpointer 3.0.0
jsonschema 4.23.0
jsonschema-specifications 2025.4.1
jupyter 1.1.1
jupyter-cache 1.0.0
jupyter_client 8.6.3
jupyter-console 6.6.3
jupyter_core 5.7.2
jupyter-events 0.12.0
jupyter-lsp 2.2.5
jupyter_server 2.16.0
jupyter_server_terminals 0.5.3
jupyterlab 4.4.3
jupyterlab_pygments 0.3.0
jupyterlab_server 2.27.3
jupyterlab_widgets 3.0.15
kaleido 0.2.1
kiwisolver 1.4.8
langchain 0.3.25
langchain-community 0.3.9
langchain-core 0.3.61
langchain-text-splitters 0.3.8
langcodes 3.5.0
langsmith 0.1.147
language_data 1.3.0
lazy_loader 0.4
loguru 0.7.3
lxml 5.4.0
mapclassify 2.8.1
marisa-trie 1.2.1
Markdown 3.8
markdown-it-py 3.0.0
MarkupSafe 3.0.2
marshmallow 3.26.1
matplotlib 3.10.3
matplotlib-inline 0.1.7
mdurl 0.1.2
mercantile 1.2.1
mistune 3.1.3
mizani 0.11.4
multidict 6.4.4
multivolumefile 0.2.3
murmurhash 1.0.13
mypy_extensions 1.1.0
narwhals 1.40.0
nbclient 0.10.0
nbconvert 7.16.6
nbformat 5.10.4
nest-asyncio 1.6.0
networkx 3.4.2
nltk 3.9.1
notebook 7.4.3
notebook_shim 0.2.4
numpy 2.2.6
openpyxl 3.1.5
orjson 3.10.18
outcome 1.3.0.post0
overrides 7.7.0
OWSLib 0.33.0
packaging 24.2
pandas 2.2.3
pandocfilters 1.5.1
parso 0.8.4
pathspec 0.12.1
patsy 1.0.1
Pebble 5.1.1
pexpect 4.9.0
pillow 11.2.1
pip 25.1.1
platformdirs 4.3.8
plotly 6.1.2
plotnine 0.13.6
polars 1.8.2
preshed 3.0.9
prometheus_client 0.22.1
prompt_toolkit 3.0.51
propcache 0.3.1
psutil 7.0.0
ptyprocess 0.7.0
pure_eval 0.2.3
py7zr 0.22.0
pyarrow 17.0.0
pybcj 1.0.6
pycparser 2.22
pycryptodomex 3.23.0
pydantic 2.11.5
pydantic_core 2.33.2
pydantic-settings 2.9.1
Pygments 2.19.1
pynsee 0.1.8
pyogrio 0.11.0
pyparsing 3.2.3
pyppmd 1.1.1
pyproj 3.7.1
pyshp 2.3.1
PySocks 1.7.1
python-dateutil 2.9.0.post0
python-dotenv 1.0.1
python-json-logger 3.3.0
python-magic 0.4.27
pytz 2025.2
pywaffle 1.1.1
PyYAML 6.0.2
pyzmq 26.4.0
pyzstd 0.17.0
rasterio 1.4.3
referencing 0.36.2
regex 2024.11.6
requests 2.32.3
requests-cache 1.2.1
requests-toolbelt 1.0.0
retrying 1.3.4
rfc3339-validator 0.1.4
rfc3986-validator 0.1.1
rich 14.0.0
rpds-py 0.25.1
rtree 1.4.0
s3fs 2025.5.0
s3transfer 0.11.3
scikit-image 0.24.0
scikit-learn 1.6.1
scipy 1.13.0
seaborn 0.13.2
selenium 4.33.0
Send2Trash 1.8.3
setuptools 80.8.0
shapely 2.1.1
shellingham 1.5.4
six 1.17.0
smart-open 7.1.0
sniffio 1.3.1
sortedcontainers 2.4.0
soupsieve 2.7
spacy 3.8.4
spacy-legacy 3.0.12
spacy-loggers 1.0.5
SQLAlchemy 2.0.41
srsly 2.5.1
stack-data 0.6.3
statsmodels 0.14.4
tabulate 0.9.0
tenacity 9.1.2
terminado 0.18.1
texttable 1.7.0
thinc 8.3.6
threadpoolctl 3.6.0
tifffile 2025.5.24
tinycss2 1.4.0
topojson 1.9
tornado 6.5.1
tqdm 4.67.1
traitlets 5.14.3
trio 0.30.0
trio-websocket 0.12.2
typer 0.15.3
types-python-dateutil 2.9.0.20250516
typing_extensions 4.13.2
typing-inspect 0.9.0
typing-inspection 0.4.1
tzdata 2025.2
Unidecode 1.4.0
uri-template 1.3.0
url-normalize 2.2.1
urllib3 2.4.0
wasabi 1.1.3
wcwidth 0.2.13
weasel 0.4.1
webcolors 24.11.1
webdriver-manager 4.0.2
webencodings 0.5.1
websocket-client 1.8.0
widgetsnbextension 4.0.14
wordcloud 1.9.3
wrapt 1.17.2
wsproto 1.2.0
xlrd 2.0.1
xyzservices 2025.4.0
yarl 1.20.0
yellowbrick 1.5
zipp 3.21.0

View file history

SHA Date Author Description
8f8e6563 2025-06-16 15:42:32 lgaliana Les chapitres dans le bon ordre, ça serait mieux…
d8bacc63 2025-06-16 17:34:16 Lino Galiana Ménage de printemps: retire les vieux chapitres inutiles (#615)
88890345 2024-12-27 14:38:09 lgaliana Sur la récupération de données
c1853b92 2024-11-20 15:09:19 Lino Galiana Reprise eval + reprise S3 (#576)
005d89b8 2023-12-20 17:23:04 Lino Galiana Finalise l’affichage des statistiques Git (#478)
3fba6124 2023-12-17 18:16:42 Lino Galiana Remove some badges from python (#476)
4cd44f35 2023-12-11 17:37:50 Antoine Palazzolo Relecture NLP (#474)
1f23de28 2023-12-01 17:25:36 Lino Galiana Stockage des images sur S3 (#466)
a06a2689 2023-11-23 18:23:28 Antoine Palazzolo 2ème relectures chapitres ML (#457)
09654c71 2023-11-14 15:16:44 Antoine Palazzolo Suggestions Git & Visualisation (#449)
889a71ba 2023-11-10 11:40:51 Antoine Palazzolo Modification TP 3 (#443)
a7711832 2023-10-09 11:27:45 Antoine Palazzolo Relecture TD2 par Antoine (#418)
8556b79f 2023-09-27 17:29:23 Julien PRAMIL Typo chapitre S3 (#415)
154f09e4 2023-09-26 14:59:11 Antoine Palazzolo Des typos corrigées par Antoine (#411)
9977c5dc 2023-08-28 10:43:36 Lino Galiana Fix bug path pandas (#397)
3bdf3b06 2023-08-25 11:23:02 Lino Galiana Simplification de la structure 🤓 (#393)
5d4874a8 2023-08-11 15:09:33 Lino Galiana Pimp les introductions des trois premières parties (#387)
3f60d55d 2023-02-02 18:59:16 Lino Galiana WIP: Change path S3 (#349)
9000723c 2023-01-22 12:01:25 Lino Galiana Corrige code s3fs upload (#345)
1fe65ac9 2022-12-25 21:39:51 Lino Galiana Dark boxes (#336)
2227f8eb 2022-12-25 18:56:57 Lino Galiana Fix problem s3 chapter (#335)
8e5edba6 2022-09-02 11:59:57 Lino Galiana Ajoute un chapitre dask (#264)
688cc15e 2022-09-01 18:38:59 Lino Galiana Update index.qmd
2117d2c7 2022-09-01 08:54:38 Lino Galiana Ajoute des éléments sur arrow (#262)
f10815b5 2022-08-25 16:00:03 Lino Galiana Notebooks should now look more beautiful (#260)
d201e3cd 2022-08-03 15:50:34 Lino Galiana Pimp la homepage ✨ (#249)
bacb5a01 2022-07-04 19:05:20 Lino Galiana Enrichir la partie elastic (#241)
12965bac 2022-05-25 15:53:27 Lino Galiana :launch: Bascule vers quarto (#226)
aa945cb7 2022-03-31 09:28:14 Lino Galiana corrige une ou deux typos (#225)
34b08ec8 2022-03-24 16:37:37 Lino Galiana Ajoute code sur write_parquet dans S3
c51a87b9 2022-03-24 16:29:39 Lino Galiana retire typo nom bucket (#223)
3b1d9ff1 2022-03-09 10:38:15 Lino Galiana Ajoute détails arrow dans la partie S3 (#220)
9c71d6e7 2022-03-08 10:34:26 Lino Galiana Plus d’éléments sur S3 (#218)
2a8809fb 2021-10-27 12:05:34 Lino Galiana Simplification des hooks pour gagner en flexibilité et clarté (#166)
2e4d5862 2021-09-02 12:03:39 Lino Galiana Simplify badges generation (#130)
80877d20 2021-06-28 11:34:24 Lino Galiana Ajout d’un exercice de NLP à partir openfood database (#98)
6729a724 2021-06-22 18:07:05 Lino Galiana Mise à jour badge onyxia (#115)
4cdb759c 2021-05-12 10:37:23 Lino Galiana :sparkles: :star2: Nouveau thème hugo :snake: :fire: (#105)
7f9f97bc 2021-04-30 21:44:04 Lino Galiana 🐳 + 🐍 New workflow (docker 🐳) and new dataset for modelization (2020 🇺🇸 elections) (#99)
0a0d0348 2021-03-26 20:16:22 Lino Galiana Ajout d’une section sur S3 (#97)
Retour au sommet

Citation

BibTeX
@book{galiana2023,
  author = {Galiana, Lino},
  title = {Python pour la data science},
  date = {2023},
  url = {https://pythonds.linogaliana.fr/},
  doi = {10.5281/zenodo.8229676},
  langid = {fr}
}
Veuillez citer ce travail comme suit :
Galiana, Lino. 2023. Python pour la data science. https://doi.org/10.5281/zenodo.8229676.