Cloudera Impala es un motor de consulta que corre en Apache Hadoop.
El proyecto fue anunciado en octubre de 2012 con una distribución pública beta[2][3] y se encuentra disponible para el público en general desde mayo de 2013.[4]
El proyecto Impala con licencia Apache lleva la tecnología de base de datos escalable en paralelo a Hadoop, permitiendo a los usuarios realizar consultas SQL de baja latencia a los datos almacenados en HDFS y Apache HBase sin necesidad de movimiento o transformación de los datos. Impala está integrada con Hadoop para utilizar los mismos archivos y formato de datos, metadatos, seguridad y frameworks de gestión de recursos utilizados por MapReduce, Apache Hive, Apache Pig y otro software de Hadoop.
Impala está dirigido a los analistas y científicos de datos para realizar análisis en los datos almacenados en Hadoop a través de herramientas de SQL o business intelligence. El resultado es que el procesamiento de datos a gran escala (a través de MapReduce) y las consultas interactivas se pueden hacer en el mismo sistema utilizando los mismos datos y metadatos - eliminando la necesidad de migrar los conjuntos de datos a sistemas especializados y/o formatos propietarios solo para realizar el análisis.
Las características incluyen:
- Soporte de HDFS y almacenamiento Apache HBase
- Lee formatos de archivos de Hadoop, incluyendo texto, LZO, SequenceFile, Avro, RCFile, y Parquet
- Soporta seguridad Hadoop (autenticación Kerberos)
- Autorización fine-grained, basada en roles con Sentry[5]
- Utiliza metadata, controlador ODBC, y sintaxis SQL de Apache Hive
A principios de 2013, un formato de archivo orientado a columnas llamado Parquet se anunció para arquitecturas incluyendo entre ellas a Impala.[6]
En diciembre de 2013, Amazon Web Services anunció soporte para Impala.[7]
A principios de 2014, MapR agregó soporte para Impala.[8]