Apache Arrow
infrastructure logicielle
From Wikipedia, the free encyclopedia
Apache Arrow est un framework logiciel indépendant du langage, conçu pour le développement d'applications d'analyse de données traitant des données colonnaires. Il utilise un format de mémoire standardisé, orienté colonnes, capable de représenter des données plates et hiérarchiques pour des opérations analytiques efficaces sur les processeurs et cartes graphiques modernes[2],[3],[4],[5],[6]. Ceci réduit, voire élimine, les facteurs limitant la faisabilité du traitement de grands ensembles de données, tels que le coût, la volatilité ou les contraintes physiques de la mémoire vive dynamique.
| Développé par | Wes McKinney, Antoine Pitrou (d), Sutou Kouhei (d), Matt Topol (d) et Dremio (d) |
|---|---|
| Dernière version | 23.0.1 ()[1] |
| Dépôt | github.com/apache/arrow |
| Licence | Apache License 2.0 |
| Site web | arrow.apache.org |
Interopérabilité
Arrow est compatible avec Apache Parquet, Apache Iceberg Apache Spark, NumPy, PySpark, pandas et d'autres bibliothèques de traitement de données. Le projet inclut des bibliothèques logicielles natives écrites en C, C++, C#, Go, Java, JavaScript, Julia, MATLAB, Python (PyArrow[7] ), R, Ruby et Rust. Arrow permet des lectures sans copie et un accès et un échange rapides de données, sans surcharge de sérialisation, entre ces langages et systèmes[2].
Applications
Apache Arrow est utilisé dans divers domaines, notamment l'analyse de données[8], la génomique[9], et le cloud computing[10].
Comparaison avec Apache Parquet et ORC
Apache Parquet et Apache ORC sont des exemples courants de formats de données colonnaires sur disque. Apache Arrow viens en complément de ces formats de fichiers en étant destiné pour le traitement des données en mémoire[11]. Les optimisation dédiés aux le traitement en mémoire et le tockage sur disque diffèrent[12]. Les projets Arrow et Parquet incluent des bibliothèques permettant la lecture et l'écriture de données entre les deux formats[13].
Gouvernance
Apache Arrow a été annoncé par la Fondation Apache Software le 17 février 2016 [14] son développement étant mené par une coalition de développeurs issus d'autres projets d'analyse de données open source[15],[16],[6],[17],[18] Le code source initial et la bibliothèque Java ont été construits à partir du code d'Apache Drill[14].