Máxima verosimilitud

Máxima verosimilitud

En estadística, la estimación por máxima verosimilitud (conocida también como EMV y, en ocasiones, MLE por sus siglas en inglés) es un método habitual para ajustar un modelo y encontrar sus parámetros.

Contenido

Historia

Fue recomendado, analizado y popularizado por R. A. Fisher entre 1912 y 1922, aunque había sido utilizado antes por Gauss, Laplace, Thiele y F. Y. Edgeworth.[1]

Fundamento

Supóngase que se tiene una muestra x1, x2, …, xn de n observaciones independientes extraídas de una función de distribución desconocida con función de densidad (o función de probabilidad) f0(·). Se sabe, sin embargo, que f0 pertenece a una familia de distribuciones { f(·|θ), θ ∈ Θ }, llamada modelo paramétrico, de manera que f0 corresponde a θ = θ0, que es el verdadero valor del parámetro. Se desea encontrar el valor \scriptstyle\hat\theta (o estimador) que esté lo más próximo posible al verdadero valor θ0.

Tanto xi como θ pueden ser vectores.

La idea de este método es el de encontrar primero la función de densidad conjunta de todas las observaciones, que bajo condiciones de independencia, es


   f(x_1,x_2,\ldots,x_n\;|\;\theta) = f(x_1|\theta)\cdot f(x_2|\theta)\cdots f(x_n|\theta)\,

Observando esta función bajo un ángulo ligeramente distinto, se puede suponer que los valores observados x1, x2, …, xn son fijos mientras que θ puede variar libremente. Esta es la función de verosimilitud:


  \mathcal{L}(\theta\,|\,x_1,\ldots,x_n) = \prod_{i=1}^n f(x_i|\theta).

En la práctica, se suele utilizar el logaritmo de esta función:


   \hat\ell(\theta\,|\,x_1,\ldots,x_n) = \frac1n\ln\mathcal{L} = \frac1n \sum_{i=1}^n \ln f(x_i|\theta).

El método de la máxima verosimilitud estima θ0 buscando el valor de θ que maximiza \scriptstyle\hat\ell(\theta|x). Este es el llamado estimador de máxima verosimilitud (MLE) de θ0:


   \hat\theta_\mathrm{mle} = \underset{\theta\in\Theta}{\operatorname{arg\,max}}\ \hat\ell(\theta\,|\,x_1,\ldots,x_n).

En ocasiones este estimador es una función explícita de los datos observados x1, …, xn, pero muchas veces hay que recurrir a optimizaciones numéricas. También puede ocurrir que el máximo no sea único o no exista.

En la exposición anterior se ha asumido la independencia de las observaciones, pero no es un requisito necesario: basta con poder construir la función de probabilidad conjunta de los datos para poder aplicar el método. Un contexto en el que esto es habitual es el del análisis de series temporales.

Propiedades del estimador de máxima verosimilitud

En muchos casos, el estimador obtenido por máxima verosimilitud posee un conjunto de propiedades asintóticas atractivas:

  • consistencia,
  • normalidad asintótica,
  • eficiencia,
  • e incluso eficiencia de segundo orden tras corregir el sesgo.

Consistencia

Bajo ciertas condiciones bastante habituales,[2] el estimador de máxima verosimilitud es consistente: si el número de observaciones n tiende a infinito, el estimador \scriptstyle\hat\theta converge en probabilidad a su valor verdadero:


   \hat\theta_\mathrm{mle}\ \xrightarrow{p}\ \theta_0\ .

Bajo condiciones algo más fuertes,[3] la convergencia es casi segura:


   \hat\theta_\mathrm{mle}\ \xrightarrow{a.s.}\ \theta_0\ .

Normalidad asintótica

Si las condiciones para la consistencia se cumplen y, además,

  1. θ0 ∈ interior(Θ);
  2. f(x|θ) > 0 y es dos veces continuamente diferenciable respecto a θ en algún entorno N de θ0;
  3. ∫ supθN||∇θf(x|θ)||dx < ∞, y ∫ supθN||∇θθf(x|θ)||dx < ∞;
  4. I = E[∇θlnf(x|θ0) ∇θlnf(x|θ0)′] existe y no es singular;
  5. E[ supθN||∇θθlnf(x|θ)||] < ∞,

entonces el estimador de máxima verosimilitud tiene una distribución asintótica normal:[4]


   \sqrt{n}\big(\hat\theta_\mathrm{mle} - \theta_0\big)\ \xrightarrow{d}\ \mathcal{N}(0,\,I^{-1}).

Invariancia funcional

Si \widehat{\theta} es el EMV de θ y g(θ) es una transformación de θ, entonces el EMV de α = g(θ) es

\widehat{\alpha} = g(\widehat{\theta}).\,\!

Además, el EMV es invariante frente a ciertas transformaciones de los datos. En efecto, si Y = g(X) y g una aplicación biyectiva que no depende de los parámetros que se estiman, entonces la función de densidad de Y es

fY(y) = fX(x) / | g'(x) |

Es decir, las funciones de densidad de X e Y difieren únicamente en un término que no depende de lso parametros. Así, por ejemplo, el EMV para los parámetros de una distribución lognormal son los mismos que los de una distribución normal ajustada sobre el logaritmo de los datos de entrada.

Otras propiedades

El EMV es √n-consistente y asintóticamente eficiente. En particular, esto significa que el sesgo es cero hasta el orden n−1/2. Sin embargo, al obtener los términos de mayor orden de la expansión de Edgeworth de la distribución del estimador, θemv tiene un sesgo de orden −1. Este sesgo es igual a[5]


   b_s \equiv \operatorname{E}[(\hat\theta_\mathrm{mle} - \theta_0)_s]
       = \frac1n \cdot I^{si}I^{jk} \big( \tfrac12 K_{ijk} + J_{j,ik} \big),

fórmula donde se ha adoptado la convención de Einstein para expresar sumas; Ijk representa la j,k-ésima componente de la inversa de la matriz de información de Fisher y


   \tfrac12 K_{ijk} + J_{j,ik} = \operatorname{E} \bigg[\;
            \frac12 \frac{\partial^3 \ln f_{\theta_0}(x_t)}{\partial\theta_i\,\partial\theta_j\,\partial\theta_k} +
            \frac{\partial\ln f_{\theta_0}(x_t)}{\partial\theta_j} \frac{\partial^2\ln f_{\theta_0}(x_t)}{\partial\theta_i\,\partial\theta_k}
            \;\bigg].

Gracias a estas fórmulas es posible estimar el sesgo de segundo orden del estimador y corregirlo mediante substracción:


   \hat\theta^*_\mathrm{mle} = \hat\theta_\mathrm{mle} - \hat b .

Este estimador, insesgado hasta el orden n−1, se llama estimador de máxima verosimilitud con corrección del sesgo.

Ejemplos

Distribución uniforme discreta

Supóngase que n bolas numeradas de 1 a n se colocan en una urna y que una de ellas se extrae al azar. Si se desconoce n, su EMV es el número m que aparece en la bola extraída: la función de verosimilitud es 0 para n < m y 1/n para n ≥ m; que alcanza su máximo cuando n = m. El esperanza matemática de \hat{n} , es (n + 1)/2. Como consecuencia, el EMV de n infravalorará el verdadero valor de n por (n − 1)/2.

Distribución discreta con parámetros discretos

Supóngase que se lanza una moneda sesgada al aire 80 veces. La muestra resultante puede ser algo así como x1 = H, x2 = T, ..., x80 = T, y se cuenta el número de caras, "H". La probabilidad de que salga cara es p y la de que salga cruz, 1 − p (de modo que p es el parámetro θ). Supóngase que se obtienen 49 caras y 31 cruces. Imagínese que la moneda se extrajo de una caja que contenía tres de ellas y que éstas tienen probabilidades p iguales a 1/3, 1/2 y 2/3 aunque no se sabe cuál de ellas es cuál.

A partir de los datos obtenidos del experimento se puede obtener saber cuál es la moneda con la máxima verosimilitud. Usando la función de probabilidad de la distribución binomial con una muestra de tamaño 80, número de éxitos igual a 49 y distintos valores de p, la función de verosimilitud toma tres valores siguientes:


\begin{align}
\Pr(\mathrm{H} = 49 \mid p=1/3) & = \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000, \\[6pt]
\Pr(\mathrm{H} = 49 \mid p=1/2) & = \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012, \\[6pt]
\Pr(\mathrm{H} = 49 \mid p=2/3) & = \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054.
\end{align}

La verosimilitud es máxima cuando p = 2/3 y éste es, por lo tanto, el EMV de p.

Aplicaciones

El estimador de máxima verosimilitud se usa dentro de un gran número de modelos estadísticos:

Véase también

Notas

  1. Edgeworth (Sep 1908, Dec 1908)
  2. Newey y McFadden (1994, Theorem 2.5.)
  3. Newey y McFadden (1994, Theorem 2.5.)
  4. Newey y McFadden (1994, Theorem 3.3.)
  5. Cox y Snell (1968, formula (20))

Referencias

  • Aldrich, John (1997). R.A. Fisher and the making of maximum likelihood 1912–1922. 12.  pp. 162–176. doi:10.1214/ss/1030037906. Plantilla:MR. 
  • Anderson, Erling B. 1970. "Asymptotic Properties of Conditional Maximum Likelihood Estimators". Journal of the Royal Statistical Society B 32, 283-301.
  • Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980.
  • Debabrata Basu. Statistical Information and Likelihood : A Collection of Critical Essays by Dr. D. Basu ; J.K. Ghosh, editor. Lecture Notes in Statistics Volume 45, Springer-Verlag, 1988.
  • A general definition of residuals. 1968.  pp. 248–275. Plantilla:Jstor. 
  • Edgeworth, F.Y. (Sep 1908). On the probable errors of frequency-constants. 71.  pp. 499–512. Plantilla:Jstor. 
  • Edgeworth, F.Y. (Dec 1908). On the probable errors of frequency-constants. 71.  pp. 651–678. Plantilla:Jstor. 
  • Ferguson, Thomas S (1996). A course in large sample theory. Chapman & Hall. 
  • Hald, Anders (1998). A history of mathematical statistics from 1750 to 1930. New York: Wiley. 
  • Hald, Anders (1999). On the history of maximum likelihood in relation to inverse probability and least squares. 14.  pp. 214–222. Plantilla:Jstor. 
  • Kano, Y. (1996). Third-order efficiency implies fourth-order efficiency. 26.  pp. 101–117. http://www.journalarchive.jst.go.jp/english/jnlabstract_en.php?cdjournal=jjss1995&cdvol=26&noissue=1&startpage=101. 
  • Le Cam, Lucien (1990). Maximum likelihood — an introduction. 58.  pp. 153–171. 
  • Le Cam, Lucien; Lo Yang, Grace (2000). Asymptotics in statistics: some basic concepts. Springer. ISBN 0-387-95036-2. 
  • Le Cam, Lucien (1986). Asymptotic methods in statistical decision theory. Springer-Verlag. 
  • Lehmann, E.L.; Casella, G. (1998). Theory of Point Estimation, 2nd ed. Springer. ISBN 0-387-98502-6. 
  • Newey, Whitney K.; McFadden, Daniel (1994). Large sample estimation and hypothesis testing. Handbook of econometrics, vol.IV, Ch.36. Elsevier Science. pp. 2111–2245. 
  • Pratt, John W. (1976). F. Y. Edgeworth and R. A. Fisher on the efficiency of maximum likelihood estimation. 4.  pp. 501–514. Plantilla:Jstor. 
  • Savage, Leonard J. (1976). On rereading R. A. Fisher. 4.  pp. 441–500. Plantilla:Jstor. 
  • Stigler, Stephen M. (1978). Francis Ysidro Edgeworth, statistician. 141.  pp. 287–322. Plantilla:Jstor. 
  • Stigler, Stephen M. (1986). The history of statistics: the measurement of uncertainty before 1900. Harvard University Press. ISBN 0-674-40340-1. 
  • Stigler, Stephen M. (1999). Statistics on the table: the history of statistical concepts and methods. Harvard University Press. ISBN 0-674-83601-4. 
  • van der Vaart, A.W. (1998). Asymptotic Statistics. ISBN 0-521-78450-6. 

Enlaces externos


Wikimedia foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Mira otros diccionarios:

  • Función de verosimilitud — En estadística, la función de verosimilitud (o, simplemente, verosimilitud) es una función de los parámetros de un modelo estadístico que permite realizar inferencias acerca de su valor a partir de un conjunto de observaciones. No debe… …   Wikipedia Español

  • Distribución normal — Saltar a navegación, búsqueda Distribución normal Función de densidad de probabilidad La línea verde corresponde a la distribución normal estandar Función de distribución de probabilidad …   Wikipedia Español

  • Familia exponencial — Saltar a navegación, búsqueda En probabilidad y estadística, la familia exponencial es una clase de distribuciones de probabilidad cuya formulación matemática puede expresarse de la manera que se especifica debajo. Esta formulación confiere a las …   Wikipedia Español

  • Modelo lineal generalizado — En estadística, el modelo lineal generalizado (MLG) es una flexible generalización de la regresión de mínimos cuadrados ordinaria. Relaciona la distribución aleatoria de la variable dependiente en el experimento (la «función de distribución») con …   Wikipedia Español

  • Media truncada — Se denomina media truncada a una medida de tendencia central estadística, similar a un promedio y una mediana. Para el cálculo del promedio en este caso previamente se descartan porciones de la distribución de probabilidad o muestra en el extremo …   Wikipedia Español

  • Algoritmo esperanza-maximización — El algoritmo esperanza maximización o algoritmo EM se usa en estadística para encontrar estimadores de máxima verosimilitud de parámetros en modelos probabilísticos que dependen de variables no observables. El algoritmo EM alterna pasos de… …   Wikipedia Español

  • Divergencia de Kullback-Leibler — Saltar a navegación, búsqueda En teoría de la probabilidad la divergencia de Kullback Leibler es un indicador de la similitud entre dos funciones de distribución. Dentro de la teoría de la información también se la conoce como divergencia de la… …   Wikipedia Español

  • Karl Gustav Jöreskog — Nacimiento 25 de abril de 1935 Åmål, Suecia Residencia Uppsala, Suecia Nacionalidad Sueco Campo …   Wikipedia Español

  • Síntesis de habla — La voz sintética es una voz artificial (no pregrabada), generada mediante un proceso de sintetización del habla. La síntesis de habla es la producción artificial de habla humana. Un sistema usado con este propósito recibe el nombre de… …   Wikipedia Español

  • Cladística — Se ha sugerido que este artículo o sección sea fusionado con Clasificación filogenética (discusión). Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí. Este cladograma muestra l …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”