Chinchilla AI

From Wikipedia, the free encyclopedia

Chinchilla AI es una familia de grandes modelos de lenguaje desarrollados por el equipo de investigación de DeepMind, presentados en marzo de 2022.[1] Se llama "chinchilla" porque es un desarrollo adicional sobre una familia de modelos anterior llamada "Gopher" (tuzas). Ambas familias de modelos fueron entrenadas para investigar las leyes de escala de modelos grandes de lenguaje.[2] Supera a GPT-3 en rendimiento.[3]

Simplifica considerablemente la utilización posterior porque requiere mucha menos potencia informática para la inferencia y el ajuste. Con base en el entrenamiento de modelos de lenguaje empleados anteriormente, se ha determinado que si uno duplica el tamaño del modelo, también debe tener el doble de tokens de entrenamiento. Esta hipótesis ha sido utilizada para entrenar Chinchilla AI por DeepMind. Similar a Gopher en términos de costo, Chinchilla AI tiene parámetros 70B y cuatro veces más datos.[4]

Chinchilla AI tiene una precisión promedio del 67,5 % en el punto de referencia MMLU (Measuring Massive Multitask Language Understanding), que es un 7 % más alto que el rendimiento de Gopher. Chinchilla AI todavía está en la fase de prueba desde el 12 de enero de 2023.[5]

Chinchilla AI contribuye a desarrollar un paradigma de entrenamiento efectivo para grandes modelos de lenguaje autorregresivos con recursos informáticos limitados. El equipo de Chinchilla recomienda que la cantidad de tokens de capacitación sea el doble por cada duplicación del tamaño del modelo, lo que significa que el uso de conjuntos de datos de capacitación más grandes y de mayor calidad puede generar mejores resultados en las tareas posteriores.[6][7]

Arquitectura

Tanto la familia Gopher como la familia Chinchilla son modelos de aprendizaje transformador.

En particular, son esencialmente iguales a GPT-2, con diferentes tamaños y modificaciones menores. La familia Gopher usa RMSNorm en lugar de LayerNorm, codificación posicional relativa en lugar de codificación posicional absoluta. La familia Chinchilla es la misma que la familia Gopher, pero entrenada con AdamW en lugar del optimizador Adam.

La familia Gopher contiene 6 modelos de tamaño creciente, desde 44 millones de parámetros hasta 280 mil millones de parámetros. Se refieren al más grande como "Gopher" por defecto. Se aplican convenciones de nomenclatura similares para la familia Chinchilla.

La tabla muestra toda la familia Gopher:[2]

Más información Recuento de parámetros, Capas ...
Especificaciones del modelo para la familia Gopher
Recuento de parámetros Capas Número de cabezas Tamaño de clave/valor Dimensión interna Tasa de aprendizaje máxima Tamaño del lote
44M 8 16 32 512 6 × 10 -4 0.25M
117M 12 12 64 768 6 × 10 -4 0.25M
417M 12 12 128 1,536 2 × 10 -4 0.25M
1.4B 24 16 128 2,048 2 × 10 -4 0.25M
7.1B 32 32 128 4,096 1,2 × 10 -4 2M
Gopher 280B 80 128 128 16,384 4 × 10 -5 3M → 6M
Cerrar

La tabla compara el Chinchilla de 70 mil millones de parámetros con el Gopher 280B:[1]

Más información Recuento de parámetros, Capas ...
Comparación entre Chinchilla y Gopher
Recuento de parámetros Capas Número de cabezas Tamaño de clave/valor Dimensión interna Tasa de aprendizaje máxima Tamaño del lote
Gopher 280B 80 128 128 16,384 4 × 10 -5 3M → 6M
Chinchilla 70B 80 64 128 8,192 1 × 10 -4 1,5 millones → 3 millones
Cerrar

Referencias

Related Articles

Wikiwand AI