Medida de similitud
From Wikipedia, the free encyclopedia
En estadística y campos relacionados, una medida de similitud o función de semejanza o la semejanza métrica es un función real-valuada que cuantifica la semejanza entre dos objetos, aunque no existe una definición única de similitud. Normalmente tales medidas son en algún sentido el inverso de las distancias métricas: toman valores grandes para objetos similares y toman el valor cero o un valor negativo para objetos muy disímiles. Aun así, en términos generales, una función de semejanza también puede satisfacer axiomas métricos.
La similitud coseno es una similitud generalmente utilizada para vectores real-valuados, utilizada en (entre otros campos) la búsqueda de información para puntuar la semejanza de documentos en el modelo de espacio vectorial. En aprendizaje automático, funciones kernel comunes como el kernel RBF pueden ser vistas como funciones de semejanza.[1]
En clustering espectral, una medida de similitud, o afinidad, se usa para transformar datos para superar dificultades relacionadas con una falta de convexidad en la forma de la distribución de datos.[2] La medida da lugar a una matriz de semejanza de dimensión nxn para un conjunto de n puntos, donde la entrada (i,j) en la matriz puede ser sencillamente el (negativo de la) distancia euclidiana entre i y j, o pueda ser una métrica más compleja como el Gaussiano .[2] Modificar más este resultado con técnicas de análisis de redes es también común.[3]