Modelo de independencia binaria

El modelo de independencia binaria es una técnica de recuperación de información probabilística que hace algunas suposiciones para hacer más fácil la determinación de la similitud documento / consulta. Este modelo fue propuesto por primera vez por Yu y Salton,^[1] pero su nombre lo debe a Robertson y Sparck.^[2]

La suposición de independencia binaria es considerar a los documentos vectores binarios, es decir solo se tiene constancia de la existencia o no de los términos. Los términos están distribuidos independientemente en el conjunto de documentos al igual que en el conjunto de documentos irrelevantes. Los documentos y las consultas se representan a partir de un vector con un elemento booleano para cada término tomado en consideración, es decir un documento es representado por un vectoe d = (x1, x2,..., xm) donde xt = 1 si el término t está presente en el documento d y xt = 0 en caso contrario. Con esta simplificación muchos documentos pueden tener al mismo vector como representación. Las consultas son representadas de forma similar. La independencia entre términos quiere decir que los términos en un documento son considerados independientes uno de otros y que no es modelada ninguna asociación entre los mismos. Esta suposición es muy limitante pero ha sido probado que provee resultados lo suficientemente buenos para muchas situaciones. Además permite que la representación de los documentos sea tratada como una instancia de un modelo vectorial espacial al consideraer cada término como 0 o 1.

La probabilidad P(R|d,q) de que un documento sea relevante se deriva de la probabilidad de relevancia del vector de términos de dicho documento P(R|x,q). Usando el Teorema de Bayes obtenemos la siguiente función de similitud:

Función de similitud

donde P(x|R=1,q) y P(x|R=0,q) son las probabilidades de recuperar un documento relevnte o irrelevante respectivamente, y la representación del documento es x. Como las probabilidades exactas no se conocen de antemano es necesario usar datos estadísticos sobre la colección de documentos.

P(R=1|q) y P(R=0|q) indican las probabilidades anteriores de recuperar un documento relevante o irrelevante dada una consulta q. Si por ejemplo conocieramos el porcentaje de documentos relevantes de la colección pudiéramos usar dicho dato para estimar dichas probabilidades. Como n documento es relevante o irrelevante dada una consulta tenemos:

Modelo de independencia binaria

Pesos de los términos de la consulta

Trabajos recientes

Referencias

Related Articles