Coeficiente de contingencia

Coeficiente de contingencia

El coeficiente de contingencia C (de Karl Pearson) es una medida de relación estadística. El coeficiente de contingencia de Pearson expresa la intensidad de la relación entre dos (o más) variables nominales u ordinales. Se basa en la comparación de las frecuencias efectivamente calculadas de dos características con las frecuencias que se hubiesen esperado con independencia de estas características.

Contenido

El coeficiente χ2 (coeficiente Chi-cuadrado)

El coeficiente χ2 (también llamado contingencia cuadrática),[1] sobre el que se basa el coeficiente de contingencia, es una medida de la "intensidad" de la relación entre las características observadas :

\chi^2=\sum_{i=1}^k  \sum_{j=1}^m   \frac{(h_{i,j} -\frac{h_i. h._j}{n})^2}{\frac{h_i. h._j}{n}}

El valor informativo del coeficiente χ2 es reducido debido a que su límite superior, es decir, el valor que asume en el caso de la completa dependencia de las características observadas es dependiente de la magnitud (dimensión) de la tabla de contingencia (es decir de la cantidad de valores posibles de las variables) y del tamaño del universo estudiado n. No está dada entonces la factibilidad de la comparación de valores del coeficiente χ2 sobre diferentes tablas de contingencia y tamaños muestrales.[1] [2] En el caso de la completa independencia de las características, χ2 = 0.

Rige que:[3]

0 \leq \chi^2 \leq n \cdot \min\{k-1,m-1\}

siendo k\, el número de filas y m\, el número de columnas de la tabla de contingencia.

Usos

El valor de χ2 se necesita para determinar el coeficiente de contingencia C. En las pruebas de significación estadística también se utiliza el valor de χ2 (véase Prueba de Chi cuadrado).

Ejemplo

Sea la siguiente una tabla de contingencia proveniente de una encuesta:

automóvil tipo sedán automóvil tipo familiar     Totales
Obreros 19 18 37
Empleados 43 20 63
Totales 62 38 100

Cálculo del coeficiente χ2:

\frac{(19 -\frac{37 * 62}{100})^2}{\frac{37 * 62}{100}}  +  \frac{(18 -\frac{37 * 38}{100})^2}{\frac{37 * 38}{100}}  +  \frac{(43 -\frac{63 * 62}{100})^2}{\frac{63 * 62}{100}}  +  \frac{(20 -\frac{63 * 38}{100})^2}{\frac{63 * 38}{100}}  = 2{,}83

Contingencia cuadrática media

Otra medida para especificar la intensidad de la dependencia de las características en una tabla de contingencia es la contingencia cuadrática media, que en lo esencial representa una ampliación del coeficiente χ2:

\frac{\chi^2}{n}=\frac{1}{n} \sum_{i=1}^k  \sum_{j=1}^m   \frac{(h_{i,j} -\frac{h_i. h._j}{n})^2}{\frac{h_i. h._j}{n}}

Cuanto mayor es esta medida, tanto más intensa es la relación entre las dos características analizadas. Si ambas características (variables) son independientes, entonces cada uno de los sumandos se hace 0, a consecuencia de que se hace 0 el numerador de la fracción y con ello la medida misma también. En el caso de una tabla de contingencia de 2x2 la medida está normada y asume valores en el intervalo [0,1].

Coeficiente de contingencia de Karl Pearson

χ2 puede asumir valores en principio muy grandes y no está limitado al intervalo [0,1]. Para excluir la dependencia del coeficiente de contingencia del tamaño de la muestra, se calcula en base a χ2 el coeficiente de contingencia C (también denominado CC o K) de Karl Pearson:

C=\sqrt{\frac{\chi ^2}{\chi^2 + n}}.
donde n es el tamaño de la muestra.

Este puede asumir valores en el intervalo [0,1). Resulta problemático que el límite superior del coeficiente de contingencia C sea dependiente del número de las dimensiones observadas:[4]

Aquí rige C\in \left[0,\sqrt{\frac{k-1}{k}} \right], donde k = min( | I | , | J | ) el mínimo de entre la cantidad de formas posibles de la característica en las variables estudiadas.

Coeficiente de contingencia corregido

Para poder excluir, además de la influencia del tamaño de la muestra, también la influencia de de la dimensión de las tablas de contingencia consideradas (el número de formas de la característica) sobre el límite superior del coeficiente y asegurar así la comparabilidad de los resultados, se utiliza con frecuencia el coeficiente de contingencia corregido Ckorr (también denominado K * ) para medir la relación:

C_{korr}=\sqrt{\frac{k}{k-1}} \cdot C = \sqrt{\frac{k}{k-1}} \cdot \sqrt{\frac{\chi ^2}{n+\chi ^2}},

donde k igual que más arriba.

Aquí rige: 0 \leq C_{korr} \leq 1: Un C_{korr}\, cercano a 0 indica características independientes. C_{korr}\, cerca de 1 señala una mayor medida de dependencia entre las características.

Para el ejemplo propuesto, resulta un coeficiente de contingencia corregido C_{korr}  =   \sqrt{\frac{2}{2-1}}*0{,}166    = 0{,}234 .

Cramérs V

El Cramérs V (en inglés también: Cramér's V) es un coeficiente de contingencia, más precisamente, una medida de relación estadística basada en χ2. Se denomina así en honor del matemático y estadístico sueco Harald Cramér.

El Cramérs V es una valor de medida independiente del tamaño de la muestra. Cramérs V es una medida simétrica para la intensidad de la relación entre dos o más variables de la escala nominal, cuando (por lo menos) una de las dos variables tiene por lo menos dos formas (valores posibles). En una tabla de 2x2 el Cramérs V corresponde al Coeficiente phi.

Procedimiento

V = \sqrt{\frac{\chi^2}{n (\min[r, c]-1)}}.
n: Total de casos (volumen de la muestra)
min[r,c] es el menor entre ambos valores «número de filas» (rows)" y "número de columnas (columns)"

Interpretación

En cualquier tabla de contingencia – independientemente de la cantidad de filas y columnas – Cramérs V está entre 0 y 1. Puede usarse para tablas de contingencia de cualquier tamaño. Un Cramérs V que es mayor que 0,3 es considerado en ciencias sociales como una correlación significativa.

Rango de valores [0 hasta 1]
  • Cramérs V = 0: no hay relación entre X e Y
  • Cramérs V = 1: hay una relación perfecta entre X e Y
  • Cramérs V = 0,6: hay una correlación relativamente intensa entre X e Y

Dado que Cramérs V es un número siempre positivo, no se pueden hacer afirmaciones acerca de la dirección de la relación.

Coeficiente Phi \boldsymbol{\phi} \;

El coeciciente Phi (también llamado coeficiente de correlación de cuatro campos) \phi \, (también  \widehat{r_\phi}) es una medida para la intensidad de la relación entre variables dicotómicas.

Cálculo

para estimar la correlación de cuatro campos entre dos caraterísticas dicotómicas A y B, se construye primeramente una tabla de contingencia que contiene la distribución de frecuencia conjunta de las variables.

  A=0 A=1 Total
B=0 a b a+b
B=1 c d c+d
Total a+c b+d a+b+c+d

Con los datos de la tabla se puede calcular \phi \; según la fórmula

 \phi= \frac{a \cdot d- b \cdot c}{\sqrt{(a+b)\cdot(c+d)\cdot(a+c)\cdot(b+d)}} .[5]

Ejemplos

Medida de la asociación entre

  • Aprobación o rechazo de una decisión política acerca del género,
  • Presentación o en su defecto, no presentación de un aviso publicitario y compra o no-compra de un producto.
  • Aplicación de \phi \, a una matriz de confusión con dos clases.

Nota

Entre \phi \, y \chi^2\, existe la relación \chi^2=n \cdot \phi^2  bzw.  \phi^2=\frac{\chi^2}{n}, donde n\, designa al número de observaciones. Con ello \phi\, es la raíz cuadrada (sin que importe el signo) de la contingencia media cuadrática (ver más arriba).

Como prueba de significación estadística, bajo el supuesto de que \phi \, es igual a cero,  n \cdot \phi^2 tiene una distribución Chi Cuadrado con un grado de libertad.

Véase también

Bibliografía

  • Bortz, J., Lienert, G.A. & Boehnke, K. (1990). Verteilungsfreie Methoden in der Biostatistik. (Métodos libres de distribución en la bioestadística) Springer, Berlin (cap. 8.1, p. 326 y p. 355 y siguientes).
  • Diehl, J. M. / Kohr, H.U. (1999). Deskriptive Statistik. («Estadística descriptiva») 12ª edición. Klotz Eschborn, p.161.
  • Zöfel, P. (2003). Statistik für Psychologen. («Estadística para psicólogos») Pearson Studium, Múnich.
  • Signifikanzprüfung für die Vierfelderkorrelation («Prueba de significación para la correlación de cuatro campos»). (Formato PDF; 13 kB, idioma alemán)

Referencias

  1. a b Schulze, P.M. (2007), Beschreibende Statistik (9ª edición), Oldenbourg, p. 125 
  2. Kohn, W. (2005), Statistik. Datenanalysis und Wahrscheinlichkeitsrechnung, Springer, p. 115 
  3. Kohn, W., Ibidem, p. 114 
  4. Toutenburg, H.; Heumann C. (2008), Deskriptive Statistik: Eine Einführung in Methoden und Anwendungen mit R und SPSS (6ª edición), Springer, p. 115 
  5. Rönz,, Bernd; Strohe, Hans Gerhard (compiladores) (1994), Lexikon Statistik, Wiesbaden: Gabler, p. 25 

Enlaces externos


Wikimedia foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Mira otros diccionarios:

  • Coeficiente phi — En estadística, el coeficiente phi φ o rφ, también llamado coeficiente de correlación de Mathews es una medida de la asociación entre dos variables binarias. Esta medida es similar al coeficiente de correlación de Pearson en su interpretación. De …   Wikipedia Español

  • Tabla de contingencia — En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Supóngase que se dispone de dos variables, la primera el sexo… …   Wikipedia Español

  • Distribución χ² — (ji cuadrado) Función de densidad de probabilidad …   Wikipedia Español

  • Jean-Paul Benzécri — (1932 ) estadístico francés. Estudió en la Escuela Normal Superior y trabajó como profesor del Instituto de Estadística de la Universidad de París VI. Se lo considera fundador de la escuela francesa de análisis estadístico de datos durante los… …   Wikipedia Español

  • Matriz de correlación — Una matriz de correlación es una tabla de doble entrada para A B y C, que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlación llamado r . El análisis factorial se… …   Wikipedia Español

  • Café (todos) — Wikipedia:Café (todos) Saltar a navegación, búsqueda Atajos WP:C …   Wikipedia Español

  • Curva ROC — Saltar a navegación, búsqueda Contenido 1 Curva ROC (Receiver Operating Characteristic) 2 Conceptos Básicos 3 El espacio ROC 4 …   Wikipedia Español

  • Análisis exploratorio de datos — Saltar a navegación, búsqueda El análisis exploratorio de datos (o, simplemente E.D.A.: Exploratory data analysis) es, básicamente, el tratamiento estadístico al que se somenten las muestras recogidas durante una intervención arqueológica al… …   Wikipedia Español

  • Estadística no paramétrica — Saltar a navegación, búsqueda La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser …   Wikipedia Español

  • Medidas de asociación — En epidemiología, las medidas de asociación tratan de estimar la magnitud con la que dos fenómenos se relacionan. Dicha asociación no implica necesariamente causalidad. Ejemplos de medidas de asociación son: El riesgo relativo, utilizado en los… …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”