Tf-idf

From Wikipedia, the free encyclopedia

Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en la colección de documentos), es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de texto. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras.[1]

Variaciones del esquema de peso tf-idf son empleadas frecuentemente por los motores de búsqueda como herramienta fundamental para medir la relevancia de un documento dada una consulta del usuario, estableciendo así una ordenación o ranking de los mismos. Tf-idf puede utilizarse exitosamente para el filtrado de las denominadas stop-words (palabras que suelen usarse en casi todos los documentos), en diferentes campos como la clasificación y resumen de texto.[2]

Una de las funciones de ranking más sencillas se calcula como la suma de los valores tf-idf de cada término de la consulta. Muchas funciones de ranking más complejas constituyen variaciones de este simple modelo.

Supongamos que tenemos una colección de documentos y queremos determinar el documento más relevante a la consulta "la mochila azul". Una manera sencilla de comenzar es eliminando aquellos documentos que no contengan las tres palabras "la", "mochila" y "azul", pero todavía quedan muchos documentos. Para diferenciarlos aún más, debemos contar el número de veces que cada término ocurre en cada documento y sumarlos; el número de veces que un término ocurre en un documento se denomina su frecuencia de término (tf).

Sin embargo, como el término "la" es tan común, esto provocará que se destaquen incorrectamente documentos que utilizan de casualidad la palabra "la" con más frecuencia, sin conceder suficiente peso a los términos más significativos "mochila" y "azul". El término "la" no es una buena palabra clave para distinguir documentos relevantes y no relevantes, a diferencia de las palabras menos comunes "mochila" y "azul". Por lo tanto, se incorpora un factor de frecuencia inversa de documento que atenúa el peso de los términos que ocurren con mucha frecuencia en la colección de documentos e incrementa el peso de los términos que ocurren pocas veces.

Detalles matemáticos

Véase también

Bibliografía

Related Articles

Wikiwand AI