- Modelo de espacio vectorial
-
Se conoce como modelo de espacio vectorial a un modelo algebraico utilizado para filtrado, recuperación, indexado y cálculo de relevancia de información. Representa documentos en lenguaje natural de una manera formal mediante el uso de vectores (de identificadores, por ejemplo términos de búsqueda) en un espacio lineal multidimensional. Fue usado por primera vez por el sistema SMART de recuperación de información.
La teórica básica es que la relevancia de un documento frente a una búsqueda puede calcularse usando la diferencia de ángulos (basada en el coseno de esos ángulos) de cada uno de los documentos respecto del vector de busca, utilizando el producto escalar entre el vector de búsqueda . Así un valor de coseno de cero significa que la búsqueda y el documento son ortogonales el uno al otro, y eso significa que no hay coincidencia.
Para determinar el coseno del ángulo entre dos vectores se usa la siguiente ecuación:
donde:- teta es el ángulo entre v1 y v2
- v1 es el primer vector
- v2 es el segundo vector
- . representa el producto
- ||x|| representa la magnitud del vector x
El modelo clásico propuesto por Salto, Wong y Yang tenía parámetros locales y globales incorporados en la ecuacuón del peso del término (w(n)) conocida como tf-idf):
w(n) = f(n) x Log (D / d(n))
donde:
- w(n) es el peso del término para la búsqueda de la palabra clave n,
- f(n) es la frecuencia en la que aparece el término n en el documento (representa el parámetro local),
- d(n) es el número de documentos conteniendo al término n
- D es la cantidad total de documentos
Apúntese que el cociente d(n)/D es esencialmente la probabilidad de encontrar el documento que contiene el término n en el conjunto que está siendo utilizado y representa el parámetro global.Contenido
Limitaciones del modelo de espacio vectorial
El modelo de espacio vectorial tiene las siguientes limitaciones:
- Los documentos largos quedan poco representados ya que contienen pocos valores en común (un producto escalar menor y una gran dimensionalidad)
- Las palabras de búsqueda deben coincidir con las palabras del documento, partes de un palabra pueden dar en falsos positivos.
- Sensibilidad semántica, documentos con contextos similares pero con diferente vocabulario no serán asociados, resultando en falsos negativos
Bibliografía
- G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (The article in which the vector space model was first presented)
- Descripción del modelo de espacio vectorial
- Descripción del modelo de espacio vectorial basado en tópicos
- Descripción del modelo de espacio vectorial clásico por Dr E Garcia
Véase también
- Okapi BM25
- Índice invertido
- Modelo booleano
- Recuperación de información
- Indización automática
Enlaces externos
Wikimedia foundation. 2010.