Ducklake

Format de fichier bigdata créé par duckdb From Wikipedia, the free encyclopedia

DuckLake est un format de fichier dédié aux datalake open source conçu pour stocker et interroger des données analytiques sur des systèmes de stockage objet, tout en utilisant une base de données SQL standard pour gérer les métadonnées. Il est développé par les créateurs de DuckDB et vise à simplifier l’architecture des data lakes modernes.

Développé par Mark Raasveldt (d) et Hannes Mühleisen (d)Voir et modifier les données sur Wikidata
Dernière version 1.0 ()[2]Voir et modifier les données sur Wikidata
Faits en bref Développé par, Première version ...
Ducklake
Informations
Développé par Mark Raasveldt (d) et Hannes Mühleisen (d)Voir et modifier les données sur Wikidata
Première version [1]Voir et modifier les données sur Wikidata
Dernière version 1.0 ()[2]Voir et modifier les données sur Wikidata
Dépôt github.com/duckdb/ducklakeVoir et modifier les données sur Wikidata
Type Format de fichier (en)Voir et modifier les données sur Wikidata
Licence Licence MITVoir et modifier les données sur Wikidata
Documentation ducklake.select/docs/stableVoir et modifier les données sur Wikidata
Site web ducklake.selectVoir et modifier les données sur Wikidata
Fermer

Histoire

Ducklake est présenté en mai 2025 dans le DuckLake Manifesto[3], qui expose les motivations et principes du projet. En avril 2026, DuckLake atteint la version 1.0[4], marquant une version dite « prête pour la production », accompagnée d’une spécification stable et d’une implémentation de référence sous forme d’extension pour DuckDB.

Philosophie

Le DuckLake Manifesto repose sur plusieurs constats concernant les architectures modernes de data lakes :

  • La séparation entre stockage et calcul est désormais standard et bénéfique.
  • Les formats ouverts (comme Parquet) sont essentiels pour éviter l’enfermement propriétaire.
  • Les formats actuels complexifient la gestion des métadonnées en les distribuant sous forme de fichiers.

DuckLake propose donc une approche alternative :

  • utiliser une base de données SQL comme couche unique de métadonnées ;
  • conserver les données dans des formats ouverts ;
  • exploiter les propriétés des bases de données (transactions ACID, indexation, requêtes efficaces) pour gérer les métadonnées.

Fonctionnalités

DuckLake reprend plusieurs fonctionnalités clés des formats lakehouse modernes :

  • transactions ACID ;
  • gestion de versions (time travel) ;
  • évolution de schéma ;
  • séparation stockage/calcul.

Il introduit également des optimisations spécifiques, comme la notion "Data inlining"; Afin d'éviter la prolifération de petits fichiers ,améliorer les performances des charges de travail en streaming et réduire les besoins en opérations de maintenance (comme la compaction). DuckLake proposer stocker directement les petites modifications (insertions, suppressions, mises à jour) dans le catalogue SQL au lieu de créer immédiatement des fichiers de données.

Références

Articles connexes

Related Articles

Wikiwand AI