Google Cloud Dataproc
Software
From Wikipedia, the free encyclopedia
Google Cloud Dataproc (Cloud Dataproc) ist ein Platform as a Service (PaaS), der auf der Google Cloud Platform angeboten wird. Cloud Dataproc nutzt viele Technologien der Google Cloud Platform wie Google Compute Engine und Google Cloud Storage, um vollständig verwaltete Cluster mit gängigen[1][2] Datenverarbeitungs-Frameworks wie Apache Hadoop und Apache Spark anzubieten.[3]
| Google Cloud Dataproc | |
|---|---|
| Basisdaten | |
| Hauptentwickler | Google Cloud Platform |
| Erscheinungsjahr | 2016 |
| Aktuelle Version | 1.2.31 (13. April 2018) |
| Betriebssystem |
|
| cloud.google.com/dataproc | |
Geschichte
Design
Cloud Dataproc ist ein Platform as a Service (PaaS)-Produkt, das die Apache Spark und Apache Hadoop Frameworks mit vielen gängigen Cloud Computing Patterns kombiniert. Cloud Dataproc trennt Compute und Storage, was bei vielen Cloud Hadoop-Angeboten ein relativ gängiges Design ist. Cloud Dataproc verwendet virtuelle Maschinen der Google Compute Engine zur Berechnung und Google Cloud Storage zur Speicherung von Dateien. Cloud Dataproc verfügt über eine Reihe von Kontroll- und Integrationsmechanismen, die den Lebenszyklus, das Management und die Koordination von Clustern koordinieren. Cloud Dataproc ist in den YARN Application Manager integriert, um die Verwaltung und Nutzung von Clustern zu erleichtern.[6]
Cloud Dataproc enthält viele Open-Source-Pakete, die für die Datenverarbeitung verwendet werden, darunter Elemente aus dem Spark und Hadoop Ökosystem, sowie Open-Source-Tools, um diese Frameworks mit anderen Google Cloud Platform Produkten zu verbinden.[7]