DuckDB

Créateur Hannes Mühleisen (d)

Développé par Hannes Mühleisen (d) et Mark Raasveldt (d)

Dernière version 1.5.2 (13 avril 2026)^[1]

Dépôt github.com/duckdb/duckdb

DuckDB

Informations
Créateur	Hannes Mühleisen (d)
Développé par	Hannes Mühleisen (d) et Mark Raasveldt (d)
Dernière version	1.5.2 (13 avril 2026)^[1]
Dépôt	github.com/duckdb/duckdb
Écrit en	C++
Formats écrits	DuckDB database file (d)
Type	Système de gestion de base de données
Licence	Licence MIT
Site web	duckdb.org

DuckDB est un logiciel libre de gestion de bases de données.

DuckDB est performant pour le traitement analytique en ligne (OLAP) notamment grâce à son format de stockage par colonnes.

Le logiciel a été créé par Mark Raasveldt (d) et Hannes Mühleisen (d) au Centrum voor Wiskunde en Informatica (CWI) aux Pays-Bas^[2].

DuckDB a été initialement développé par Mark Raasveldt et Hannes Mühleisen (d) au Centrum Wiskunde & Informatica (CWI) aux Pays-Bas^[2]. Les co-fondateurs du projet ont conçu DuckDB pour répondre au besoin d'une solution de base de données OLAP en processus^[3]. DuckDB est sortie fois en 2019^[4]. La version 1.0.0 de DuckDB a été publiée le 3 juin 2024, sous le nom de code SnowDuck^[5].

Fonctionnalités

DuckDB utilise un moteur de traitement des requêtes vectorisé. DuckDB est particulier parmi les systèmes de gestion de bases de données car il n'a aucune dépendance externe et peut être construit avec uniquement un compilateur C++^[6]. DuckDB s'écarte également du modèle client-serveur traditionnel en s'exécutant à l'intérieur d'un processus hôte. Le parseur SQL de DuckDB est dérivé de la bibliothèque pg_query développée par Lukas Fittl, qui elle-même provient du parseur SQL de PostgreSQL, simplifié au maximum.>^[7] DuckDB utilise un format de stockage en fichier unique pour conserver les données sur disque, conçu pour permettre des scans efficaces ainsi que des mises à jour en masse, des ajouts et des suppressions. DuckDB est également compilé en WebAssembly à l'aide d'emscripten, ce qui permet à DuckDB d'exécuter SQL dans des outils d'analyse basés sur le navigateur^[8]^,^[9].

Sources de données

DuckDB est en mesure d’interagir avec différentes sources de données, notamment des formats de fichiers, des protocoles réseau ainsi que des systèmes de gestion de bases de données. Parmi les sources prises en charge figurent^[10] :

Fichiers
- les fichiers CSV
- les fichiers texte
- les fichiers Excel
- les fichiers JSON
- les fichiers Delta Lake
- les fichiers Iceberg
- les fichiers Parquet
Base de données
- MySQL
- PostgreSQL
- SQLite
Protocoles réseau
- Les Buckets S3
- Azure Blob Storage
- Cloudflare R2
- des fichiers accessibles en http

Extensions

L'architecture de DuckDB prend en charge les extensions, permettant d'ajouter des fonctionnalités supplémentaires de manière dynamique^[11]. De nombreuses extensions populaires sont maintenues par l'équipe principale de DuckDB, et il existe plus de 30 extensions communautaires maintenues par des tiers^[12]^,^[13]^,^[14]. Les extensions peuvent être activées à l'aide de la commande INSTALL. Certaines sources de données pré-citées sont accessibles au travers d'extensions ^[15]. Les extensions permettent principalement d'utiliser des formats de fichiers supplémentaires, mais pas uniquement elles peuvent aussi d'étendre la gamme de fonctionnalités .

Extensions Core notable

ui^[16] offre une interface utilisateur graphique de type notebook accessible via un navigateur Web.

postgres^[17], mysql^[18], sqlite^[19] permettent l'accès à des bases de données externes.
ducklake^[20] permet de crée un mini DataLake en local. DuckLake^[21] offre des fonctions de lac de données sans la complexité des datalake traditionnels. Il utilise des fichiers Parquet pour le stockage des données. La gestion des métadonnées s'effectue dans une base de données SQL centrale telle que PostgreSQL. Pour les cas d'utilisations simples, DuckDB lui-même suffit comme base de données de métadonnées.
Vortex^[22] Nouveau format de la fondation duckdb et de Spiraldb , qui s'inspire entre autres de apache iceberg.

Comparaison

DuckDB, dans son créneau OLAP, ne concurrence pas les systèmes de gestion de bases de données traditionnels tels que MSSQL, PostgreSQL ou Oracle. Bien qu'il utilise SQL pour les requêtes, DuckDB vise les applications serverless et offre des réponses extrêmement rapides en utilisant par exemple des fichiers Apache Parquet , JSON, ou son propre format de stockage. Ces caractéristiques en font un choix populaire pour l'analyse de grands ensembles de données en mode interactif^[23].

DuckDB Foundation

La fondation indépendante à but non lucratif DuckDB Foundation assure la maintenance et le développement à long terme de DuckDB. La fondation détient une grande partie de la propriété intellectuelle du projet et est financée par des dons caritatifs^[24]. Les statuts de la Fondation DuckDB garantissent que DuckDB reste open source sous licence MIT license à perpétuité^[25].

Langage	Notes	Référence
Java	L’API Java est implémentée à l’aide de la JNI^[26]. Une intégration avec le format Apache Arrow^[27] est fournie.	^[28]
Python	L’API Python implémente la prise en charge des bibliothèques Pandas^[29], Apache Arrow^[30] et Polars pour l'analyse de données.	^[31]
Rust	L’API Rust est distribuée sous forme de crate Rust qui expose un élégant wrapper autour de l’API C native.	^[32]
Node.JS	API Node	^[33]
R	API R	^[34]
Julia	API Julia	^[35]
Swift	API Swift	^[36]
WebAssembly	API WASM	^[37]
Go	API Go	^[38]

Fonctionnalités

Sources de données

Extensions

Extensions Core notable

Comparaison

DuckDB Foundation

Prise en charge des langages

Articles connexes

Notes et références

Related Articles