Modelo booleano

El Modelo Booleano de recuperación de información(MRIB)^[1] es uno de los modelos clásicos de recuperación de información(RI) y, al mismo tiempo, el primero y más adoptado.Es usado por varios sistemas de RI en estos días. ^{[cita requerida]}

El MRIB está basado en la Lógica Booleana y la clásica Teoría de Conjuntos en el cual ambos, los documentos a buscar y la consulta del usuario, son concebidos como un conjunto de términos.La recuperación está basada en cuando los documentos contienen o no los términos de la consulta. Dado un conjunto finito

T = {t₁, t₂, ..., t_j, ..., t_m}

de elementos llamados índices (e.g. palabras o expresiones - las cuales pueden estar lematizadas - describiendo o caracterizando documentos como son palabras dadas para un artículo de un periódico ), un conjunto finito

D = {D₁, ..., D_i, ..., D_n}, donde D_i es un elemento del conjunto potencia de T

de elementos llamados documentos.Dada una expresión Booleana - en forma normal - Q llamada consulta como sigue a continuación:

Q = (W_i OR W_k OR ...) AND ... AND (W_j OR W_s OR ...) ,

con W_i=t_i, W_k=t_k, W_j=t_j, W_s=t_s, or W_i=NON t_i, W_k=NON t_k, W_j=NON t_j, W_s=NON t_s

donde t_i significa que el término t_i está presente en el documento D_i y, por el contrario, NON t_i significa que no está.

Equivalentemente, Q puede ser dado en forma normal disjuntiva, también.Una operación de recuperación consiste de dos pasos como se define a continuación:

1. El conjunto S_j de documentos que son obtenidos que contienen o no el término t_j (dependiendo de cuando W_j=t_j o W_j=NON t_j) :

Sj = {D_i | W_j elemento de D_i}

2. Estos documentos son recuperados como respuesta a Q, los cuales son el resultado de las correspondientes operaciones entre conjuntos, i.e. la respuesta a Q es como sigue:

UNION ( INTERSECCION S_j)

Ejemplo

Sea el conjunto de documentos originales (reales) en idioma inglés , por ejemplo:

O = {O₁, O₂, O₃}

donde

O₁ = Principio de Bayes: El principio que, en la estimación de un parámetro, pudiera inicialmente suponer que cada posible valor tiene igual probabilidad (una distribución uniforme).

O₂ = Teoría de la decisión Bayesiana: Una teoría matemática de toma de decisiones, la cual supone utilidad y funciones de probabilidad, y de acuerdo con el acto de ser elegido es el acto de Bayes, por ejemplo: uno con la mayor Utilidad Subjetiva Esperada. Si uno tuvo tiempo ilimitado y un poder de calcular con el cual hacer cada decisión, este procedimiento será la mejor vía para hacer cualquier decisión.

O₃ = Epistemología Bayesiana : Una teoría filosófica la cual sostiene que el estatus epistémico de una proposición (ejemplo: que tan bien provista o establecida está) está mejor medido por una probabilidad y que la vía verdadera para revisar esta probabilidad está dada por la condicionante Bayesiana o por procedimientos similares. Un epistemólogo Bayesiano utilizaría una probabilidad para definir, y explorar la relación entre, conceptos como estatus epistémico, soporte o poder explicativo.

Sea el conjunto T de términos:

T = {t₁ = Principio de Bayes, t₂ = probabilidad, t₃ = toma de decisión, t₄ = Epistemología Bayesiana}

Entonces, el conjunto D de documentos es como sigue:

D = {D₁, D₂, D₃}

donde

D₁ = {Principio de Bayes, probabilidad}

D₂ = {probabilidad, toma de decisión}

D₃ = {probabilidad, Epistemología Bayesiana}

Sea la consulta Q:

Q = probabilidad AND toma de decisión

1. Primeramente, los siguientes conjuntos S₁ y S₂ de documentos D_i son obtenidos (recuperados):

S₁ = {D₁, D₂, D₃}

S₂ = {D₂}

2. Finalmente, los siguientes documentos D_i son recuperados en respuesta a Q:{D₁, D₂, D₃} INTERSECTION {D₂} = {D₂}

Esto significa que el documento original O₂ (correspondiente a D₂) es la respuesta a Q.

Obviamente, si hay más de un documento con la misma representación, cada documento es recuperado. Dichos documentos son, en el MRIB, indistinguibles (o en otras palabras, equivalentes).

Ejemplo

Ventajas

Desventajas

Estructuras de datos y algoritmos

Conjuntos Hash

Referencias

Related Articles