Clasificador bayesiano ingenuo

En teoría de la probabilidad y minería de datos, un clasificador Bayesiano ingenuo es un clasificador probabilístico basado en el teorema de Bayes y algunas hipótesis simplificadoras adicionales. Es a causa de estas simplificaciones, que se suelen resumir en la hipótesis de independencia entre las variables predictoras, que recibe el apelativo de ingenuo.

En abstracto, el modelo de probabilidad para un clasificador es

$p(C \vert F_1,\dots,F_n)\,$

sobre una variable dependiente C, con un pequeño número de resultados (o clases). Esta variable está condicionada por varias variables independientes desde $F 1$ a $F n$ . El problema es que si el número n de variables independientes es grande (o cuando éstas pueden tomar muchos valores), entonces basar este modelo en tablas de probabilidad se vuelve imposible. Por lo tanto el modelo se reformula para hacerlo más manejable:

Usando el teorema de Bayes se escribe:

$p(C \vert F_1,\dots,F_n) = \frac{p(C) \ p(F_1,\dots,F_n\vert C)}{p(F_1,\dots,F_n)}. \,$

Lo anterior podría reescribirse en lenguaje común como:

$Posterior = \frac{Anterior*Probabilidad}{Evidencia}. \,$

En la práctica sólo importa el numerador, ya que el denominador no depende de $C$ y los valores de $F i$ son datos, por lo que el denominador es, en la práctica, constante.

El numerador es equivalente a una probabilidad compuesta:

$p(C, F_1, \dots, F_n)\,$

que puede ser reescrita como sigue, aplicando repetidamente la definición de probabilidad condicional:

$p(C, F_1, \dots, F_n)\,$

$= p(C) \ p(F_1,\dots,F_n\vert C)$

$= p(C) \ p(F_1\vert C) \ p(F_2,\dots,F_n\vert C, F_1)$

$= p(C) \ p(F_1\vert C) \ p(F_2\vert C, F_1) \ p(F_3,\dots,F_n\vert C, F_1, F_2)$

$= p(C) \ p(F_1\vert C) \ p(F_2\vert C, F_1) \ p(F_3\vert C, F_1, F_2) \ p(F_4,\dots,F_n\vert C, F_1, F_2, F_3)$

... y así sucesivamente. Ahora es cuando la asunción "naïve" de independencia condicional entra en juego: se asume que cada $F i$ es independiente de cualquier otra $F j$ para $j\neq i$ . Esto significa que

$p(F_i \vert C, F_j) = p(F_i \vert C)\,$

por lo que la probabilidad compuesta puede expresarse como

$p(C, F_1, \dots, F_n) = p(C) \ p(F_1\vert C) \ p(F_2\vert C) \ p(F_3\vert C) \ \cdots\,$

$= p(C) \prod_{i=1}^n p(F_i \vert C).\,$

Esto significa que haciendo estas asunciones, la distribución condicional sobre la variable clasificaroria $C$ puede expresarse de la siguiente manera:

$p(C \vert F_1,\dots,F_n) = \frac{1}{Z} p(C) \prod_{i=1}^n p(F_i \vert C)$

donde $Z$ es un factor que depende sólo de $F_1,\dots,F_n$ , es decir, constante si los valores de $F i$ son conocidos.

Su uso contra el correo basura

El filtrado Bayesiano aplicado a la detección de correo basura tiene las siguientes ventajas:

Mira el mensaje completo
Se adapta a sí mismo a lo largo del tiempo
Es sensible/adaptable a la empresa/usuario
Es multilingüe e internacional
Utiliza inteligencia artificial
Es difícil de engañar

Categorías:

Estadística bayesiana
Correo electrónico

Wikimedia foundation. 2010.

Игры ⚽ Поможем решить контрольную работу

Mira otros diccionarios:

Ingenuo (desambiguación) — Ingenuo puede referirse a: El usurpador romano Ingenuo. La ingenuidad. Ingenua, personaje literario. La condición jurídica de ciertos campesinos en la Edad Media y el Antiguo Régimen en España.[1] El arte naïf ( ingenuo , en francés). Psicología… … Wikipedia Español
Anexo:Episodios de Numb3rs — La siguiente es una lista de episodios de la serie norteamericana NUMB3RS. Contenido 1 Estrenos y Lanzamientos en DVD 2 Primera temporada (2005) 3 Segunda temporada (2005 2006) … Wikipedia Español

Los diccionarios y las enciclopedias sobre el Académico

Clasificador bayesiano ingenuo

Su uso contra el correo basura

Mira otros diccionarios:

Compartir el artículo y extractos

Los diccionarios y las enciclopedias sobre el Académico

Wikipedia Español

Clasificador bayesiano ingenuo

Su uso contra el correo basura

Mira otros diccionarios:

Compartir el artículo y extractos

Link directo