Okapi BM25

Okapi BM25

Okapi BM25 es una función de ranking utilizada en Recuperación de información para la asignación de relevancia a los documentos en un buscador, dicho de otra forma, es una función que nos permite ordenar por relevancia los documentos que contienen las palabras que el usuario ha introducido en la caja de búsqueda de un buscador como Google, Yahoo! o Live.

Esta función está basada en los modelos probabilísticos de Recuperación de información, concretamente en el BIR (Binary Independent Retrieval) desarrollado por Stephen E. Robertson y Karen Spärck Jones en los años 70.

El nombre de Okapi viene del primer sistema que implementó esta función de ranking, el cual fue desarrollado por Stephen Walker en la City University de Londres


La función de ranking

BM25 se basa en el concepto de bolsa de palabras mediante al cual se representan los documentos que deseamos ordenar en función de su relevancia con una consulta dada.

Dada una consulta Q, que contiene las palabras clave q1,...,qn, el valor de relevancia asignado mediante la función BM25 para el documentos D será:

score(D,Q) = \sum_{i=1}^{n} IDF(q_i) \cdot \frac{f(q_i, D) \cdot (k_1 + 1)}{f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{avgdl})}

donde f(qi,D) es la frecuencia de aparición en el documento D de los términos que aparecen en la consulta Q, | D | es la longitud del documento D (en número de palabras), y avgdl es la longitud media de los documentos en la colección sobre la cual estamos realizando la búsqueda. k1 y b son parámetros que permiten ajustar la función a las características concretas de la colección con la que estamos trabajando. Aunque estos parámetros suelen depender de las características concretas de cada colección normalmente se asignan los valores k1 = 2.0 ó k1 = 1.2 y b = 0.75, los cuales se han establecido a partir de los experimentos que durante años se han realizado en las conferencias TREC. IDF(qi) es el peso IDF (inverse document frequency) de las palabras clave que aparecen en la consulta Q. Normalmente el IDF se calcula mediante la siguiente función:

IDF(q_i) = \log \frac{N - n(q_i) + 0.5}{n(q_i) + 0.5}

donde N es el número total de documentos en la colección, y n(qi) es el número de documentos que contienen la palabra clave qi.


Véase también


Wikimedia foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Mira otros diccionarios:

  • Okapi BM25 — est une méthode de pondération utilisée en recherche d information. Elle est une application du modèle probabiliste de pertinence. Voir aussi TF IDF Modèle probabiliste Références …   Wikipédia en Français

  • Okapi BM25 — In information retrieval, Okapi BM25 is a ranking function used by search engines to rank matching documents according to their relevance to a given search query. It is based on the probabilistic retrieval framework developed in the 1970s and… …   Wikipedia

  • Okapi BM25 — В информационном поиске, Okapi BM25  функция ранжирования, используемая поисковыми системами для упорядочивания документов по их релевантности данному поисковому запросу. Она основывается на вероятностной модели, разработанной в 1970 х и… …   Википедия

  • Okapi (disambiguation) — Okapi may refer to: De Havilland Okapi, a British two seat day bomber of the 1910s built by de Havilland Okapi, a giraffid artiodactyl mammal native to the Ituri Rainforest in central Africa Okapi (knife), a lockback or slipjoint knife originally …   Wikipedia

  • Information retrieval — This article is about information retrieval in general. For the fictional government department, see Brazil (film). Information retrieval (IR) is the area of study concerned with searching for documents, for information within documents, and for… …   Wikipedia

  • SQL Server Full Text Search — is an inexact string matching technology for SQL Server. It is a powerful and fast way of referencing the contents of almost any character based column on SQL Server 2000, SQL Server 2005, and SQL Server 2008 . Full text indexes must be populated …   Wikipedia

  • TF-IDF — Le TF IDF (de l anglais Term Frequency Inverse Document Frequency) est une méthode de pondération souvent utilisée en recherche d information et en particulier dans la fouille de textes. Cette mesure statistique permet d évaluer l importance d un …   Wikipédia en Français

  • Modelo de espacio vectorial — Se conoce como modelo de espacio vectorial a un modelo algebraico utilizado para filtrado, recuperación, indexado y cálculo de relevancia de información. Representa documentos en lenguaje natural de una manera formal mediante el uso de vectores… …   Wikipedia Español

  • Modèle probabiliste de pertinence — Le modèle probabiliste de pertinence est une méthode probabiliste de représentation du contenu d un document, proposée en 1976 par Robertson et Jones[1]. Elle est utilisée en recherche d information pour exprimer une estimation de la probabilité… …   Wikipédia en Français

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”