Análisis de componentes principales

Análisis de componentes principales

Análisis de componentes principales

En estadística, el análisis de componentes principales (en español ACP, en inglés, PCA) es una técnica utilizada para reducir la dimensionalidad de un conjunto de datos. Intuitivamente la técnica sirve para determinar el número de factores subyacentes explicativos tras un conjunto de datos que expliquen la variabilidad de dichos datos.

Técnicamente, el PCA busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados. PCA se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos. PCA comporta el cálculo de la descomposición en autovalores de la matriz de covarianza, normalmente tras centrar los datos en la media de cada atributo.

Contenido

Fundamento

El ACP construye una transformación lineal que escoge un nuevo sistema de coordenadas para el conjunto original de datos en el cual la varianza de mayor tamaño del conjunto de datos es capturada en el primer eje (llamado el Primer Componente Principal), la segunda varianza más grande es el segundo eje, y así sucesivamente. Para construir esta transformación lineal debe construirse primero la matriz de covarianza o matriz de coeficientes de correlación. Debido a la simetría de esta matriz existe una base completa de vectores propios de la misma. La transformación que lleva de las antiguas coordenadas a las coordenadas de la nueva base es precisamente la transformación lineal necesaria para reducir la dimensionalidad de datos. Además las coordenadas en la nueva base dan la composición en factores subyacentes de los datos iniciales.

Una de las ventajas de ACP para reducir la dimensionalidad de un grupo de datos, es que retiene aquellas características del conjunto de datos que contribuyen más a su varianza, manteniendo un orden de bajo nivel de los componentes principales e ignorando los de alto nivel. El objetivo es que esos componentes de bajo orden a veces contienen el "más importante" aspecto de esa información.

Matemáticas del ACP

Supongamos que existe una muestra con n individuos para cada uno de los cuales se han medido m variables (aleatorias) F_j\;. El ACP permite encontrar un número de factores subyacentes p < m que explican aproximadamente el valor de las m variables para cada individuo. El hecho de que existan estos p factores subyacentes puede interpretarse como una reducción de la dimensionalidad de los datos: donde antes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan p valores. Cada uno de los p encontrados se llama componente principal, de ahí el nombre del método.

Existen dos formas básicas de aplicar el ACP:

  1. Método basado en la matriz de covarianzas, que se usa cuando los datos son dimensionalmente homogéneos y presentan valores medios similares.
  2. Método basado en la matriz de correlación, cuando los datos no son dimensionalmente homogéneos o el orden de magnitud de las variables aleatorias medidas no es el mismo.

Método basado en las covarianzas

Es el más usado cuando todos los datos son homogéneos y tienen las mismas unidades. Cuando se usan valores muy variables o magnitudes que tienen unidades resulta más adecuado para interpretar los resultados el método basado en correlaciones, que siempre es aplicable sin restricción alguna.

Método basado en correlaciones

El método parte de la matriz de correlaciones, consideremos el valor de cada una de las m variables aleatorias F_j\,. Para cada uno de los n individuos tomemos el valor de estas variables y escribámosla el conjunto de datos en forma de matriz:

(F_j^\beta)_{j=1,...,m}^{\beta=1,...,n}.

Obsérvese que cada conjunto

\mathcal{M}_j = \{F_j^\beta| \beta=1,...,n\}

puede considerarse una muestra aleatoria para la variable F_j\,. A partir de los mxn datos correspondientes a las m variables aleatorias, puede construirse la matriz de correlación muestral viene definida por:

\mathbf{R}=[r_{ij}]\in M_{m\times m} \qquad \mbox{con}\ 
r_{ij} = \frac{\mbox{cov}(F_i,F_j)}{\sqrt{\mbox{var}(F_i)\mbox{var}(F_j)}}

Puesto que la matriz de correlaciones es simétrica entonces resulta diagonalizable y sus valores propios \lambda_i\, verifican:

\sum_{i=1}^m \lambda_i = 1

Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes principales. Los factores principales identificados matemáticamente se representan por la base de vectores propios de la matriz \mathbf{R}. Está claro que cada una de las variables puede ser expresada como combinación lineal de los vectores propios o componentes principales.

Ejemplos

  • Una análisis consideró las calificaciones escolares n = 15 estudiantes en m = materias (lengua, matemáticas, física, inglés, filosofía, historia, química, gimnasia). Los dos primeros componentes principales explicaban juntos el 82,1% de la varianza. El primer de ellos parecía fuertemente correlacionado con las materias de humanidades (lengua, inglés, filosofía, historia) mientras que el segundo aparecía relacionado con las materias de ciencias (matemáticas, física, química). Así parece que existe un conjunto de habilidades cognitivas relacionadas con las humanidades y un segundo relacionado con las ciencias, estos dos conjuntos de habilidades son estadísticamente independientes por lo que un alumno puede puntuar alto en sólo uno de ellos, en los dos o en ninguno.[1]
  • Un análisis de metodología docente, consideró las calificaciones de n = 54 estudiantes de la facultad de Biología de la ULA y m = 8 tipos de habilidades. El primer factor principal que explicaba las calificaciones era la inteligencia del estudiante y en segundo lugar la metodología de aprendizaje usada.[2]
  • Una análisis de 11 indicadores socieconómicos de 96 países, reveló que los resultados podían explicarse en alto grado a partir de sólo dos componentes principales, el primero de ellos tenía que ver con el nivel de PIB total del país y el segundo con el índice de ruralidad.[3]

Referencia

Enlaces externos

Obtenido de "An%C3%A1lisis de componentes principales"

Wikimedia foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Mira otros diccionarios:

  • Análisis de correspondencias — Saltar a navegación, búsqueda En estadística multivariante, el análisis de correspondencias es una técnica descriptiva desarrollada por Jean Paul Benzécri.[1] Suele aplicarse al estudio de tablas de contingencia y es conceptualmente similar al… …   Wikipedia Español

  • Análisis multivariante — Saltar a navegación, búsqueda El análisis multivariante es un método estadístico utilizado para determinar la contribución de varios factores en un simple evento o resultado. Los factores de estudio son los llamados factores de riesgo… …   Wikipedia Español

  • Análisis numérico — El análisis numérico o cálculo numérico es la rama de las matemáticas que se encarga de diseñar algoritmos para, a través de números y reglas matemáticas simples, simular procesos matemáticos más complejos aplicados a procesos del mundo real. El… …   Wikipedia Español

  • Análisis del Componente Independiente — Saltar a navegación, búsqueda El Análisis del Componente Independiente (ACI) (en inglés ICA) es un método computacional que sirve para separar una señal multivariante en subcomponentes aditivos suponiendo que la señal de origen tiene una… …   Wikipedia Español

  • análisis factorial — Economía. Procedimiento matemático para agrupar las variables que manifiesta un colectivo en factores generales que explican un gran porcentaje de la varianza total, simplificándose el tratamiento posterior. El método más común es el de los… …   Diccionario de Economía Alkona

  • análisis factorial — Economía. Procedimiento matemático para agrupar las variables que manifiesta un colectivo en factores generales que explican un gran porcentaje de la varianza total, simplificándose el tratamiento posterior. El método más común es el de los… …   Diccionario de Economía

  • Análisis de audiencias — Saltar a navegación, búsqueda El análisis de audiencias consiste en conocer el número de personas que han consumido un producto audiovisual, ya sea textual, sonoro, fotográfico o multimedia. Hoy en día se entiende la medición o análisis de… …   Wikipedia Español

  • Análisis modal de fallos y efectos — Un análisis modal de fallos y efectos (AMFE) es un procedimiento de análisis de fallos potenciales en un sistema de clasificación determinado por la gravedad o por el efecto de los fallos en el sistema. Es utilizado habitualmente por empresas… …   Wikipedia Español

  • Metodología de ciencias sociales — La metodología en las ciencias sociales (como la sociología, antropología, economía y psicología) es el tipo específico de metodología que debe usarse en ciencias sociales con el objetivo de obtener explicaciones veraces de los hechos sociales,… …   Wikipedia Español

  • Sistema de reconocimiento facial — El sistema de reconocimiento facial es una aplicación dirigida por ordenador que identifica automáticamente a una p …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”