La ISL es una variación del Modelo Vectorial, en la que los documentos se representan a partir de vectores de pesos no binarios, al igual que las consultas, la función de similitud es el coseno del ángulo entre el vector del documento y el de la consulta y se trabaja como framework con el álgebra vectorial. A continuación se describirá el comportamiento del modelo.
Para el análisis ISL primero se construye una matriz
donde las filas representan los términos y las columnas los documentos, esta matriz establece las relaciones término documento por lo que cada elemento
representa el peso del término
en el documento
. Estos pesos pueden ser calculados como el producto del peso local del término
en un documento específico y el peso global del término en la colección de documentos
. Los pesos anteriores pueden ser calculados de diversas formas como se muestran en las tablas a continuación.
| Nombre | Fórmula |
| Binaria | si el término existe en el documento, 0 en otro caso |
| Frecuencia de término | , el número de ocurrencias del término i en el documento j |
| Log |  |
| Augnorm |  |
| Nombre | Fórmula |
| Binaria |  |
| Normal |  |
| GfIdf | , donde es el número de veces que ocurre en toda la colección, y es el número de documentos en los cuales ocurre el término . |
| Idf |  |
| Entropy | , donde  |
Resultados empíricos reportan que Log y Entropía , son funciones de peso que funcionan bien juntas. En otras palabras que cada elemento
de
se calcula como:


El objetivo fundamental de ISL es encontrar una matriz
que constituya una aproximación a la matriz Términos-Documentos
. En esa aproximación se va a obtener información que no estaba disponible directamente en la matriz
, sino que se encontraba latente en esta. La matriz
debe cumplir las siguientes condiciones:
- La norma de Frobenius de la diferencia con
debe ser mínima.
- El rango debe ser al menos
, donde
es mucho menor que el rango de
. En este caso decimos que
es una aproximación de rango bajo.
La descomposición en valores singulares (SVD) puede ser usada para resolver el problema de la matriz de aproximación de rango bajo. Para esto se realiza el siguiente procedimiento que consta de tres pasos:
- 1- Hallar la SVD de la matriz Términos-Documentos. En otras palabras, siendo
∈
y rango
, se obtiene como resultado
, donde:
∈
es una matriz cuyas columnas son vectores propios ortogonales de
. Representa los términos en el espacio de términos.
∈
es una matriz cuyas columnas son vectores propios ortogonales de
. Representa los documentos en el espacio de documentos.
- Los valores propios de
son los mismos que los de
.
∈
, tal que
es la raíz de los valores propios para
≤
≤
y cero en otro caso.
- 2- Obtener de
la matriz
, remplazando por ceros los
menores valores propios en la diagonal de
.
- 3- Calculamos
. De esta forma se obtiene una aproximación de
de rango
.
Algo importante a tener en cuenta es que
debe ser lo suficientemente grande
para evitar que se escape información relevante a la hora de hacer una consulta,
pero a la vez debe ser lo suficientemente pequeño para permitir filtrar todos los
detalles no relevantes.
Una vez encontrada la matriz
se puede proceder a la recuperación de
documentos. Para esto se realiza una transformación del vector de consulta
a
su representación en el espacio ISL mediante:
- qk = Ek-1UkTq
Se puede notar que la ecuación anterior no depende en ninguna medida de que q sea una consulta; este es simplemente un vector en el espacio de los términos. Esto significa que si tenemos una representación ISL de una colección de documentos, podemos agregar uno nuevo usando la ecuación antes planteada. Por supuesto, esto puede ser peligroso puesto que no se actualiza la frecuencia de los términos existentes en el sistema y no se adicionan los nuevos términos que posee el documento. La calidad del método ISL va en descenso a medida
que se añaden nuevos documentos, por lo que eventualmente habría que volver a realizar los cálculos.
La más utilizada de las funciones de similitud entre los vectores
y
es el coseno del ángulo entre ambos vectores, o sea,
. Esta fórmula es no solo aplicable para calcular la similitud entre un documento y una consulta, sino también para computar la similitud entre dos documentos y entre dos términos. En el caso de los términos habría primero que convertir sus vectores representativos al espacio en que se está trabajando, es decir habría que obtener:
- tk = Ek-1VkTt