Apache Hive
Hadoopの上に構築されたデータウェアハウス構築環境
From Wikipedia, the free encyclopedia
Apache Hive はHadoopの上に構築されたデータウェアハウス 構築環境であり、データの集約・問い合わせ・分析を行う[1]。Apache Hiveは当初はFacebookによって開発されたが、その後Netflixのようにさまざまな団体が開発に参加し、またユーザーとなった[2][3]。 Hive はAmazon Web ServicesのAmazon Elastic MapReduceにも含まれている[4]。
|
| |
| 最新版 |
4.1.0
/ 2025年7月31日 |
|---|---|
| リポジトリ | |
| プログラミング 言語 | Java |
| 対応OS | クロスプラットフォーム |
| サポート状況 | 開発中 |
| ライセンス | Apache License 2.0 |
| 公式サイト |
hive |
特徴と機能
Apache HiveはHadoop互換のファイルシステム(たとえばAmazon S3)に格納された大規模データセットの分析を行う。使用には、map/reduceを完全にサポートしたSQLライクな「HiveQL」という言語を用いる。クエリの高速化のため、ビットマップインデックスを含めたインデクス機能も実装している[5]。
標準設定では、Hiveはメタデータを組み込みApache Derbyデータベースに格納するが、オプションとしては別に用意したクライアント・サーバデータベース(たとえばMySQL)に格納させることもできる[6]。
現在、Hiveがサポートするファイルフォーマットは3種類あり、それらはTEXTFILE, SEQUENCEFILE および RCFILEである[7][8]。
Hiveが提供する機能には他には次のようなものがある[9]:
- 高速化のためのインデックス作成
- 別の種類のストレージタイプ。たとえばプレーンテキスト・RCFile・HBaseなど
- クエリ実行時のセマンティックチェック時間を大幅に短縮するため、メタデータを関係データベース管理システム (RDBMS) に格納する機能
- Hadoop環境に格納された圧縮データを扱う機能
- 日付型・文字列型を扱ったり他のデータ操作を可能とする組み込みユーザ定義関数(UDF)。組み込み関数で用意されていない機能もユーザが自作UDFを作成することで対応することが可能
- SQLライクなクエリ言語(Hive QL)。これは内部的にMap/Reduceジョブに変換される
HiveQL
関連項目
- Apache Pig
- Apache Sqoop
- Jaql