MySQL Cluster
From Wikipedia, the free encyclopedia
MySQL clúster es una tecnología que permite el clustering de bases de datos en memoria en un ambiente de no compartición. La arquitectura de no compartición permite que el sistema gestor de base de datos (SGBD) funcione utilizando hardware no muy costoso y con requerimientos mínimos tanto de software como de hardware.
Como todo sistema de clustering, está diseñado para no tener un punto único de fallo, cada componente tiene su propia porción de disco y memoria para trabajar. Bajo este esquema no se recomienda el uso de mecanismos de almacenamiento compartido como carpetas compartidas por red, sistemas de archivos de red, etc.

En su implementación más sencilla, un clúster MySQL integra un servidor MySQL estándar y un motor de almacenamiento en memoria llamado NDB clúster, funcionando en un conjunto de una o más computadoras. Cada una de estas computadoras ejecutando uno o más procesos, que pueden consistir en procesos de MySQL server, nodos de almacenamiento de datos, servidor administrador del clúster, o programas especializados para acceder a los datos.
Las tablas de la base de datos se almacenan utilizando el motor NDB en los nodos de almacenamiento. La manera de acceder a los datos almacenados en el clúster es a través de cualquiera de los nodos MySQL. Los nodos de datos funcionan utilizando un esquema de espejado, permitiendo soportar sin impacto la caída de nodos individuales de datos dentro de cluster. La única consecuencia que tendría un suceso como la caída de un nodo de datos, es que un pequeño conjunto de transacciones relacionados al nodo caído serán abortadas. Estas transacciones deben cumplir con el esquema transaccional, tal y como si estuvieran trabajando directamente con un servidor no clusterizado de MySQL.
Conceptos principales de un clúster MySQL
Mecanismo de almacenamiento NDB
Utiliza un mecanismo de almacenamiento en memoria que ofrece alta disponibilidad y persistencia de datos. Es altamente configurable ofreciendo un gran número de opciones para manejar el equilibrado de carga y la tolerancia a fallos.
Nodo de administración (Nodo MGM)
Este tipo de nodo cumple con la función de manejar, controlar y coordinar los otros nodos dentro del clúster. Implementa funciones de configuración de datos, Iniciar o detener otros nodos dentro del clúster, ejecutar respaldos, u otras tareas administrativas. Debido a que controla y configura el resto de los nodos, debe iniciarse antes que cualquier otro tipo de nodos utilizando el comando ndb_mgmd.
Nodo de datos
Este tipo de nodo almacena los datos. La cantidad de nodos de este tipo dentro del clúster es igual a la cantidad de réplicas por la cantidad de fragmentos. Es decir, si se manejan 4 réplicas de los datos con 2 fragmentos, se necesitarían 8 nodos de datos. No es necesario manejar más de una réplica. Este tipo de nodo se levanta utilizando el comando ndbd.
Nodo SQL (MySQL server)
A través de este tipo de nodos se accede a los datos clusterizados. Básicamente, consiste en un servidor MySQL Server que utiliza el motor de almacenamiento NDB. Se inicia utilizando el comando ndbcluster, especificando el archivo de configuración necesario para este servidor .
Clientes MySQL
Para conectarse a un cluster MySQL remotamente, se debe utilizar el mismo cliente utilizado para conectarse a un servidor MySQL no clusterizado. El clúster es transparente para los clientes.
Clientes administrativos
Existen otro tipo de clientes que se comunican con el servidor de administración y proveen las mismas funcionalidades que un nodo de este tipo. A diferencia de los nodos administrativos, los clientes permiten ejecutar las tareas de administración remotamente. Algunas tareas que pueden realizarse con estos clientes incluyen iniciar o detener nodos, administrar el seguimiento de mensajes de depuración, mostrar el estado de otros nodos y sus respectivas versiones, realizar respaldos, etc.
Grupos de nodos, Replicación y Particiones
Un clúster MySQL permite generar grupos de nodos de datos. Esto significa que uno o más nodos de datos funcionan como uno gran nodo y aislado de otros grupos. Cada nodo individual debería estar localizado en computadoras separadas, es decir en cada computadora dentro del clúster solo debería ejecutar un proceso ndbd, conteniendo una réplica de la partición de los datos asignada a ese grupo de nodos.
Todos los grupos dentro del clúster deben tener la misma cantidad de nodos de datos.
Las particiones de datos que son asignadas a los grupos de nodos consisten simplemente en porciones de los datos almacenados en el clúster. Generalmente se mantiene dentro del grupo una copia primaria de la partición de datos y una o más copias de respaldo, por si el nodo conteniendo la partición primaria llegara a fallar. La cantidad copias de una partición de datos está dada por la cantidad de nodos contenidos en el grupo. Las copias se denominan réplicas.
Ejemplo explicativo
A continuación presentamos un ejemplo con cuatro nodos de datos contenidos en dos grupos de nodos y cuatro particiones distribuidas entre estos dos grupos. Cada nodo de datos almacenará dos réplicas de los datos, una primaria de una partición de datos y otra la réplica de otra de las particiones.
En el esquema anterior tendríamos la siguiente situación. Una base de datos cuyos datos se encuentran distribuidos en cuatro particiones, I, II, III, IV.
- Grupo 1: Contiene los nodos A y B, su vez tendría asignado las particiones de datos I, III de la siguiente manera
- Nodo A
- Réplica primaria de la partición I.
- Réplica de respaldo de la partición III.
- Nodo B
- Réplica primaria de la partición III.
- Réplica respaldo de la partición I.
- Nodo A
- Grupo 2: Contiene los nodos C y D, y tendría asignadas las particiones II y IV de la siguiente manera:
- Nodo C
- Réplica primaria de la partición II.
- Réplica respaldo de la partición IV.
- Nodo D
- Réplica primaria de la partición IV.
- Réplica respaldo de la partición II.
- Nodo C
Siguiendo con este ejemplo, para poder disponer siempre de una réplica de los datos de la base de datos, lo único que es necesario es que al menos uno de los nodos del grupo siga en funcionamiento. Con esto se logra un entorno con un alto grado de tolerancia a fallos. Para ofrecer un mejor nivel de tolerancia es necesario aumentar el número de nodos de datos de manera simétrica dentro de los grupos, así como aumentar de manera proporcional la cantidad de grupos de nodos en el clúster, lo que hace necesario generar más particiones de datos.
Si se quisiera aumentar el nivel de tolerancia a fallos del esquema anterior, deberíamos agregar al menos dos nodos debido a la necesidad de crecer de forma simétrica. Se presentan dos opciones:
- Una de ellas es agregar un nodo a cada grupo. Esto resulta en tener un total de seis nodos de datos que se refleja en un total de seis particiones. De esta manera seguiríamos contando con dos grupos y los datos distribuidos entre estos dos grupos en particiones más pequeñas. Con este esquema, si todos los nodos de un grupo llegaran a fallar al mismo tiempo, se dejaría de tener disponible el cincuenta por ciento de los datos.
- Si en cambio, se agregaran dos nodos más pero a un nuevo grupo de datos, se mantiene la simetría entre grupos, cada uno con dos nodos, pero en este caso cada grupo contaría con un tercio de los datos, lo que se puede ver como una ventaja frente al esquema anterior.
Siguiendo este razonamiento, se puede observar otra característica importante de un clúster MySQL. El hecho de tener un número mayor de grupos de datos, resulta en disponer de porciones más pequeñas distribuidas de la o las bases de datos almacenadas en él. Esto hace que si bien siempre existe la posibilidad de que uno o más nodos fallen, porciones más grandes de los datos estarán disponibles todo el tiempo, aumentando la tolerancia a falla de la manera que se considere necesaria.
