Modelo booleano
From Wikipedia, the free encyclopedia
El Modelo Booleano de recuperación de información(MRIB)[1] es uno de los modelos clásicos de recuperación de información(RI) y, al mismo tiempo, el primero y más adoptado.Es usado por varios sistemas de RI en estos días. [cita requerida]
El MRIB está basado en la Lógica Booleana y la clásica Teoría de Conjuntos en el cual ambos, los documentos a buscar y la consulta del usuario, son concebidos como un conjunto de términos.La recuperación está basada en cuando los documentos contienen o no los términos de la consulta. Dado un conjunto finito
- T = {t1, t2, ..., tj, ..., tm}
de elementos llamados índices (e.g. palabras o expresiones - las cuales pueden estar lematizadas - describiendo o caracterizando documentos como son palabras dadas para un artículo de un periódico ), un conjunto finito
- D = {D1, ..., Di, ..., Dn}, donde Di es un elemento del conjunto potencia de T
de elementos llamados documentos.Dada una expresión Booleana - en forma normal - Q llamada consulta como sigue a continuación:
- Q = (Wi OR Wk OR ...) AND ... AND (Wj OR Ws OR ...) ,
- con Wi=ti, Wk=tk, Wj=tj, Ws=ts, or Wi=NON ti, Wk=NON tk, Wj=NON tj, Ws=NON ts
donde ti significa que el término ti está presente en el documento Di y, por el contrario, NON ti significa que no está.
Equivalentemente, Q puede ser dado en forma normal disjuntiva, también.Una operación de recuperación consiste de dos pasos como se define a continuación:
- 1. El conjunto Sj de documentos que son obtenidos que contienen o no el término tj (dependiendo de cuando Wj=tj o Wj=NON tj) :
- Sj = {Di | Wj elemento de Di}
- 2. Estos documentos son recuperados como respuesta a Q, los cuales son el resultado de las correspondientes operaciones entre conjuntos, i.e. la respuesta a Q es como sigue:
- UNION ( INTERSECCION Sj)
Ejemplo
Sea el conjunto de documentos originales (reales) en idioma inglés , por ejemplo:
O = {O1, O2, O3}
donde
O1 = Principio de Bayes: El principio que, en la estimación de un parámetro, pudiera inicialmente suponer que cada posible valor tiene igual probabilidad (una distribución uniforme).
O2 = Teoría de la decisión Bayesiana: Una teoría matemática de toma de decisiones, la cual supone utilidad y funciones de probabilidad, y de acuerdo con el acto de ser elegido es el acto de Bayes, por ejemplo: uno con la mayor Utilidad Subjetiva Esperada. Si uno tuvo tiempo ilimitado y un poder de calcular con el cual hacer cada decisión, este procedimiento será la mejor vía para hacer cualquier decisión.
O3 = Epistemología Bayesiana : Una teoría filosófica la cual sostiene que el estatus epistémico de una proposición (ejemplo: que tan bien provista o establecida está) está mejor medido por una probabilidad y que la vía verdadera para revisar esta probabilidad está dada por la condicionante Bayesiana o por procedimientos similares. Un epistemólogo Bayesiano utilizaría una probabilidad para definir, y explorar la relación entre, conceptos como estatus epistémico, soporte o poder explicativo.
Sea el conjunto T de términos:
T = {t1 = Principio de Bayes, t2 = probabilidad, t3 = toma de decisión, t4 = Epistemología Bayesiana}
Entonces, el conjunto D de documentos es como sigue:
D = {D1, D2, D3}
donde
D1 = {Principio de Bayes, probabilidad}
D2 = {probabilidad, toma de decisión}
D3 = {probabilidad, Epistemología Bayesiana}
Sea la consulta Q:
Q = probabilidad AND toma de decisión
1. Primeramente, los siguientes conjuntos S1 y S2 de documentos Di son obtenidos (recuperados):
S1 = {D1, D2, D3}
S2 = {D2}
2. Finalmente, los siguientes documentos Di son recuperados en respuesta a Q:{D1, D2, D3} INTERSECTION {D2} = {D2}
Esto significa que el documento original O2 (correspondiente a D2) es la respuesta a Q.
Obviamente, si hay más de un documento con la misma representación, cada documento es recuperado. Dichos documentos son, en el MRIB, indistinguibles (o en otras palabras, equivalentes).
Ventajas
- Formalismo.
- Fácil de implementar.
- Conceptos intuitivos.