El BIC es una consecuencia derivada asintótica bajo los supuestos de que la distribución de los datos se encuentra en la familia exponencial. Veamos:
= los datos observados;
= el número de datos u observaciones
, o equivalentemente, el tamaño de la muestra;
= el número de parámetros libres a ser estimados. Si el modelo está bajo el supuesto de que es lineal,
es el número de regresores, incluyendo el intercepto;
= La probabilidad marginal de los datos observados dado el modelo
; esto es, la integral de la función de verosimilitud
veces la distribución de probabilidad antes
sobre los parámetros
del modelo
para los datos observados fijos
;
= El máximo valor de la función de verosimilitud del modelo
, i.e.
, donde
son los valores de los parámetros que maximizan la función de verosimilitud.
La fórmula para el BIC es:

Bajo la suposición de que los errores de modelo o perturbaciones son independientes e idénticamente distribuidos según una distribución normal y que la condición límite de que la derivada de la probabilidad de registro con respecto a la varianza real es cero, esto se convierte en (hasta una constante aditiva, la cual sólo depende de n, y no en el modelo): [3]

donde
es la varianza del error.
La varianza del error, en este caso se define como:

Uno puede señalar de teoría de la probabilidad de que
es un estimador sesgado de la varianza verdadera,
. Dejar
denotar la forma no sesgada de la aproximación de la varianza del error. Se define como:

Adicionalmente, bajo el supuesto de normalidad la siguiente versión puede ser más manejable:

Tenga en cuenta que hay una constante añadido que se deriva de transición de la log-verosimilitud para
, sin embargo, en el uso del BIC para determinar el "mejor" modelo de la constante se convierte en trivial.
Dadas dos modelos estimados, el modelo con el menor valor de BIC es el que se prefiere. El BIC es un aumento de la función de
y una función creciente de k. Es decir, la variación no explicada en la variable dependiente y el número de variables explicativas aumentan el valor de BIC. Por lo tanto, menor BIC implica un número menor de variables explicativas, mejor ajuste, o ambos. La fuerza de la evidencia en contra del modelo con el mayor valor de BIC se puede resumir de la siguiente manera:[3]
| ΔBIC | Evidencia contra un BIC alto |
| 0 to 2 | No vale la pena más que una simple mención |
| 2 to 6 | Positivo |
| 6 to 10 | Fuerte |
| >10 | Muy fuerte |
El BIC generalmente penaliza parámetros libres con más fuerza que hace el criterio de información de Akaike, aunque depende del tamaño de n y la magnitud relativa de n y k.
Es importante tener en cuenta que el BIC se puede utilizar para comparar los modelos estimados sólo cuando los valores numéricos de la variable dependiente son idénticos para todas las estimaciones que se están comparando. Los modelos que se comparan no tienen que ser anidados , a diferencia del caso cuando los modelos se comparan utilizando un F o prueba de razón verosimilitud .