Medidas de dispersión

Medidas de dispersión

Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la mediana media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.

Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).

Contenido

Rango estadístico

El rango o recorrido estadístico es la diferencia entre el valor mínimo y el valor máximo en un grupo de números aleatorios. Se le suele simbolizar con R.

Requisitos del rango

  • Ordenamos los números según su tamaño.
  • Restamos el valor mínimo del valor máximo
Ejemplo

Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran en un rango de:

Rango = 5

Medio rango

El medio rango de un conjunto de valores numéricos es la media del menor y mayor valor, o la mitad del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia el medio rango es:

medioRango = \frac{\ (Min + Max)}{2}


Ejemplo

Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolviendolo mediante la correspondiente fórmula sería:

medioRango = \frac{\ (3 + 8)}{2} = 5.5

Representación del medio rango: Medio rango.jpg

Varianza

La varianza es una medida estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, es el cuadrado de las desviaciones: S_X^2 = \frac{\sum_{i=1}^n (X_i - \bar{X})^2}{n-1}

S_X^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2

Propiedades

  • La varianza es siempre positiva o 0: V_{X}^2 \geq 0
  • Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.

Yi = Xi + k c S_Y^2 = \frac{\sum (Y_i - \bar{Y})^2}{n} = \frac{\sum [(X_i + k) - (\bar{X} + k)]^2}{n} = \frac{\sum (X_i + k - \bar{X} - k)^2}{n} = \frac{\sum (X_i - \bar{X})^2}{n} = S_X^2

  • Si a los dato de la distribución les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.

Y_i = X_i \cdot k

S_Y^2 = \frac{\sum (Y_i - \bar{Y})^2}{n} = \frac{\sum (X_i \cdot k - \bar{X} \cdot k)^2}{n} = \frac{\sum [k \cdot (X_i - \bar{X})]^2}{n} = \frac{\sum [k^2 \cdot (X_i - \bar{X})^2]}{n} = k^2 \cdot \frac{\sum (X_i - \bar{X})^2}{n} = k^2 \cdot S_X^2

  • Propiedad distributiva: V(X + Y) = V(X) + V(Y) − cov (X,Y)

Desviación típica

La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la mayoría de los casos por S, dado que es su inicial de su nominación en inglés.

Desviación típica muestral

S = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1}}

Desviación típica poblacional

\sigma = \sqrt{\frac{\sum_{i=1}^n (X_i - \mu)^2}{N}}


-->x= [17 14 2 5 8 7 6 8 5 4 3 15 9]
 x  =

    17.    14.    2.    5.    8.    7.    6.    8.    5.    4.    3.    15.    9.

-->stdev(x)
 ans  =

    4.716311

-->

Primero hemos declarado un vector con nombre X, donde introduzco los números de la serie. Luego con el comando stdev se hallará la desviación típica.

Covarianza

La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. La formulación clásica, se simboliza por la letra griega sigma (σ) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "sxy".

La formula suele aparecer expresada como:

\hat{S}_{xy} = \frac{\sum_{i=1}^n x_i y_i}{n-1} = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{n-1}

Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas).

La expresión se resuelve promediando el producto de las puntuaciones diferenciales por su tamaño muestral (n pares de puntuaciones, n-1 en su forma insesgada). Este estadístico, refleja la relación lineal que existe entre dos variables. El resultado numérico fluctua entre los rangos de +infinito a -infinito. Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la tendencia.

  • -\infty \leq S_{xy} \leq +\infty
  • S_{xy} = \begin{cases} > 0, & \mbox{Correlaci}\acute{o}\mbox{n directa. Recta de regresi}\acute{o}\mbox{n creciente.} \\
                               = 0, & \mbox{No hay correlaci}\acute{o}\mbox{n.} \\
                               < 0. & \mbox{Correlaci}\acute{o}\mbox{n inversa. Recta de regresi}\acute{o}\mbox{n decreciente.}
                 \end{cases}

Coeficiente de Correlación de Pearson

El coeficiente de correlación de Pearson, r, permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raíz cuadrada de las varianzas).

r = \frac{V_{xy}}{\sqrt{V_x V_y}} = \frac{S_{xy}}{\sqrt{S_x^2 S_y^2}} = \frac{S_{xy}}{S_x S_y}

Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:


r = \frac{\frac{\sum x_i y_i}{n} - \bar{x}\bar{y}}
{\sqrt{\left(\frac{\sum x_i^2}{n} - x^{-2}\right)
\left(\frac{\sum y_i^2}{n} - y^{-2}\right)}}

r = \frac{n\sum x_i y_i - \sum x_i \sum y_i}
{\sqrt{\left[n\sum x_i^2 - \left(\sum x_i\right)^2\right]
\left[n\sum y_i^2 - \left(\sum y_i\right)^2\right]}}

Propiedades

  • El coeficiente de correlación, r, presenta valores entre –1 y +1.
  • Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.
  • Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.
  • Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.

Correlation types.jpg

Ejemplo

Tenemos una tabla con dos datos (x y h), elaboramos su tabla de frecuencias (fre)

-->x=[2.5 7.5 12.5 17.5] Vector de datos X

x  =
   2.5    7.5    12.5    17.5

-->h=[0 1 2] Vector de datos H

h  =
   0.    1.    2.

-->fre=[.03 .12 .07;.02 .13 .11;.01 .13 .14;.01 .09 .14] Matriz de frecuencias

fre  =
   0.03    0.12    0.07
   0.02    0.13    0.11
   0.01    0.13    0.14
   0.01    0.09    0.14

-->rho=correl(x,h,fre) Aplicación del Comando correl

rho  =
   0.2097870c

Véase también


Wikimedia foundation. 2010.

Игры ⚽ Поможем сделать НИР

Mira otros diccionarios:

  • Dispersión (matemáticas) — La dispersión mide cuan alejados están una conjunto de valores respecto a su media aritmética. Así cuanto menos disperso sea el conjunto más cerca del valor medio se encontrarán sus valores. Este aspecto es de vital importancia para el estudio de …   Enciclopedia Universal

  • Medidas de tendencia central — Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número . Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia… …   Wikipedia Español

  • Parámetro estadístico — Saltar a navegación, búsqueda La media aritmética …   Wikipedia Español

  • Análisis exploratorio de datos — Saltar a navegación, búsqueda El análisis exploratorio de datos (o, simplemente E.D.A.: Exploratory data analysis) es, básicamente, el tratamiento estadístico al que se somenten las muestras recogidas durante una intervención arqueológica al… …   Wikipedia Español

  • Varianza — En teoría de probabilidad, la varianza (que suele representarse como σ2) de una variable aleatoria es una medida de su dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media. Está medida en… …   Wikipedia Español

  • Estadística descriptiva — Saltar a navegación, búsqueda La estadística descriptiva es una parte de la estadística que se dedica a analizar y representar los datos. Este análisis es muy básico, pero estudio. Aunque hay tendencia a generalizar a toda la población las… …   Wikipedia Español

  • Corrimiento al rojo — Saltar a navegación, búsqueda Corrimiento al rojo de las líneas espectrales en el espectro visible de un supercúmulo de galaxias distantes (derecha), comparado con el del Sol (izquierda). La longitud de onda se incrementa hacia el rojo y más allá …   Wikipedia Español

  • Radiación de fondo de microondas — Saltar a navegación, búsqueda Para otros usos de este término, véase Microondas (desambiguación). Mapa de anisotropías de la radiación de fondo de microondas obtenida por el satélite WMAP. En cosmolo …   Wikipedia Español

  • Radio Observatorio de Jicamarca — Saltar a navegación, búsqueda Radio Observatorio de Jicamarca Organización Instituto Geofísico del Perú …   Wikipedia Español

  • Salud laboral — Bandera de la OMS Cartel de medidas preventivas en las constr …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”