Apache ORC

Informations
Développé par	Apache Software Foundation
Première version	12 mai 2015
Dernière version	2.1.0 (10 janvier 2025)
Dépôt	gitbox.apache.org/repos/asf/orc.git
Écrit en	C++ et Java
Type	Format de fichier (en); Format de sérialisation de données (d); Projet de la fondation Apache (d)
Licence	Licence Apache 2.0
Site web	orc.apache.org

Développé par Apache Software Foundation

Première version 12 mai 2015^[1]

Dernière version 2.1.0 (10 janvier 2025)^[2]

Dépôt gitbox.apache.org/repos/asf/orc.git

Apache ORC (Optimized Row Columnar) est un format de stockage de données orienté colonne libre et à code source ouvert de l'écosystème Apache Hadoop. Il est similaire aux autres formats de fichiers de stockage en colonnes disponibles dans l'écosystème Hadoop, tels que RCFile et Parquet. Il est compatible avec la plupart des infrastructures de traitement de données de l'environnement Hadoop .

En février 2013, Hortonworks a annoncé le format de fichier Optimized Row Columnar (ORC) en collaboration avec Facebook. Un mois plus tard, le format Apache Parquet était annoncé, développé par Cloudera et Twitter^[3].

[1]

[2]

[3]

v · m Écosystème Hadoop
Distributions Hadoop	Cloudera Hortonworks MapR
Base de données	HBase
Flux de données	Apache Sqoop Apache Flume Apache Kafka Apache Storm Apache Flink
Interrogation	Apache Hive Spark SQL Pig
Machine Learning	Apache Mahout Apache Spark ML
SQL	Presto Apache Hive Apache Impala Apache Drill
Gestionnaire de cluster	Hadoop YARN Apache Mesos Apache Spark
Format de fichier	RCFile Apache Avro Apache Parquet Apache ORC
Vrac	Presto Impala Kudu Pig Apache ZooKeeper

Apache ORC

Notes et références

Voir aussi

Related Articles