- Modelo lineal
-
En estadística, un modelo lineal predice el valor de una variable a través de otras que llamaremos factores mediante una función lineal de estos.[1] Estos factores están determinados por el escenario donde observamos la variable a predecir, a la cual llamaremos variable endógena -generada por el modelo-.
La función lineal suele representarse por:
A veces los factores son valores anteriores de la variable dependiente o de otras variables: los modelos lineales también se usan en el contexto de las series temporales.
Contenido
Expresión del modelo
Si llamamos y a la variable dependiente, la expresión del modelo es:
y = β1x1 + β2x2 + ... + βnxp + ε
representa el error cometido por el modelo.
Modelo afín
Es frecuente que nos interese que el modelo lineal tenga un sumando constante. Podemos llamar este caso modelo afín. Para construir este modelo, basta con dar al primer factor el valor constante uno. El modelo quedaría así:
y = β1 + β2x2 + ... + βpxp + ε
Modelos polinomiales
Sorprendentemente, los modelos lineales sirven también para estimar modelos polinomiales. Por ejemplo, si las potencias de una variable explican la variable endógena, el modelo sería:
Modelos multinomiales
También podemos recurrir a los modelos lineales para estimar modelos multinomiales. Un ejemplo es el siguiente:
Estimación del modelo
Para estimar el modelo, tenemos que observar el valor de la variable dependiente y de los factores en m casos. En este caso, las ecuaciones serán:
Este sistema de ecuaciones admite la siguiente expresión vectorial:
El vector de errores cometido por el modelo viene dado por:
El estimador minimo cuadrático es aquel que hace mínima la suma de los cuadrados de estos errores. Esta suma es:
No se pudo entender (La conversión a PNG ha sido errónea): SCE = \sum_{i=1}^n \varepsilon_i^2 = \boldsymbol \varepsilon ' \boldsymbol \varepsilon = ( \bold y - \bold X \boldsymbol \hat { \beta } ) ' (\bold y - \bold X \boldsymbol \hat { \beta } )
Observemos que no hemos establecido ninguna restricción para el valor de . Estamos pues ante un problema de optimización sin restricciones. Los cálculos llevan a las llamadas ecuaciones normales que tiene que verificar el valor de que hace mínima la suma de los cuadrados de los errores.No se pudo entender (La conversión a PNG ha sido errónea): \bold X ' \bold X \boldsymbol \hat { \beta } = \bold X ' \bold y
El estimador mínimo-cuadrático para resulta ser:No se pudo entender (La conversión a PNG ha sido errónea): { \color{Red} \boldsymbol \hat{ \beta } = ( \bold X ' \bold X )^{-1} \bold X ' \bold y }
El Teorema de Gauss-Márkov nos informa sobre la eficacia de este estimador.Insesgado
Si los errores -que son variables aleatorias- son insesgados , el estimador mínimo-cuadrático también lo es:
No se pudo entender (La conversión a PNG ha sido errónea): E(\boldsymbol \hat {\beta} ) = E( ( \bold X ' \bold X ) ^{-1} \bold X ( \bold X \boldsymbol \beta + \boldsymbol \varepsilon ) ) = \boldsymbol \beta + E( ( \bold X ' \bold X) ^{-1} ) X ' \boldsymbol \varepsilon )= \boldsymbol \beta
Es importante que incluyamos en el modelo todos los factores relevantes: si falta alguno, es posible que los errores no tengan media cero y el estimador de los coeficientes será sesgado. No obstante, cualquier buen modelo lineal ayuda a comprender un fenómeno y a hacer buenas estimaciones. Si incluimos factores de influencia dudosa, también podemos provocar un sesgo en el estimador mínimo-cuadrático. Desde hace muchos años, existe una teoría de inferencia en modelos lineales que nos permite decidir -con un pequeño margen de error- si un factor es o no relevante.Residuos
Los errores cometidos por el modelo cuando se usa el verdadero valor del parámetro son . No obstante, nosotros no conocemos el verdadero valor del parámetro , sino sólo su estimación No se pudo entender (La conversión a PNG ha sido errónea): \bold \hat {\beta}
y esto provoca que no manejemos los verdaderos errores cometidos, sino su estimación, a la que llamaremos residuos y que vienen dados por:
No se pudo entender (La conversión a PNG ha sido errónea): \boldsymbol \hat {\varepsilon} = \bold y - \bold X \boldsymbol \hat {\beta}
En nuestros cálculos, tampoco manejaremos la suma de los cuadrados de los errores, sino la suma de los cuadrados de los residuos:No se pudo entender (La conversión a PNG ha sido errónea): SCR = \sum_{i=1}^n \hat {\varepsilon_i}^2 = \boldsymbol \hat{\varepsilon} ' \boldsymbol \hat {\varepsilon} = ( \bold y - \bold X \boldsymbol \hat { \beta } ) ' (\bold y - \bold X \boldsymbol \hat { \beta } )
Homocedasticidad
Una cuestión clave es la homocedasticidad de los errores. Decimos que los errores son homocedásticos cuando:
Si el error presenta una varianza distinta en cada caso, hablamos de heterocedasticidad.
Modelos de series temporales
Un ejemplo de modelo lineal en series temporales es el Modelo autorregresivo integrado de media móvil, en el que los valores {Xt} de la serie pueden representarse de la forma
donde, de nuevo, εt son variables aleatorias que representan las innovaciones: nuevos efectos aleatorios que aparecen en un determinado instante y que afectan a X en lo sucesivo. En este contexto, modelo lineal se refiere de nuevo a la forma algebraica de la relación entre Xt y los valores anteriores de la serie.[2]
Véase también
Referencias
- ↑ "Linear Regression Analysis" G.A.F Seber Editorial Wiley-Interscience
- ↑ Priestley, M.B. (1988) Non-linear and Non-stationary time series analysis, Academic Press. ISBN 0-12-564911-8
Categorías:- Análisis de la regresión
- Modelos de series temporales
- Modelos estadísticos
- Terminología estadística
Wikimedia foundation. 2010.