Inicio > Geometría, Procesadores geométricos > Intervalos de confianza

Intervalos de confianza

Viernes, 10 de febrero de 2012
Citar este artículo 1.023 visitas
Intervalos de confianza

Desde ya un tiempo que Geogebra viene incorporando herramientas de estadística y probabilidades, lo que abre un espacio interesante de exploración de estos conceptos. Aprovechando estos avances, estuve los últimos meses diseñando algunas visualizaciones de conceptos clave, como lo que veremos a continuación: los intervalos de confianza para la media.

Como espero ilustrar en este post, la geometría está presente transversalmente en la matemática, de manera que cumple un rol didáctico para mostrar conceptos potentes.

Veamos entonces la interpretación geométrica de los intervalos de confianza… y un poco más.

Debo reconocer que la estadística nunca ha sido mi fuerte, pero últimamente buscando nuevas formas de explicarme conceptos clave, he ido revisitando estas ideas, y me ha sido muy gratificante entenderlos más allá de los cálculos y las fórmulas. Esa es una crítica generalizada que le podemos hacer a muchos textos: presentan fórmulas, pero ¿qué significan y de dónde vienen?.

De manera que una primera reflexión que hago al respecto, es que nos hace mucha falta revalorizar lo conceptual en la matemática, que tanto hemos dejado de lado por privilegiar lo procedimental.

En fin, la historia parte con la distribución normal…

1. Distribución normal

La distribución normal destaca en la estadística por diversas razones. Primero, esta distribución es considerada como muy ‘tratable’ en términos analíticos, pues muchos resultados se pueden deducir directamente. En segundo lugar, su forma de “campana” la hace muy conveniente para modelar una gran variedad de variables aleatorias encontradas en la práctica.

Pero probablemente la razón más importante para efectos de lo que veremos ahora, es que la distribución normal aparece como un resultado del teorema central del límite, que establece que bajo ciertas condiciones la suma de un gran número de variables aleatorias se aproxima a una distribución normal.

Teorema central del límite (fuente: Wikipedia en español)
Fuente: Wikipedia en español

2. Distribución muestral

De la “variable suma”, se puede llegar fácilmente a la variable “promedio” (suma dividia por “n”), la que también se aproxima a una distribución normal, de manera que el teorema antes mencionado se puede entender como una consecuencia del teorema central del límite.

Ésta distribución es usualmente denominada la distribución muestral, o la distribución de las medias muestrales. Veámosla gráficamente.

Para visualizar correctamente este applet, debes instalar (o activar) Java. Visita Java.com/es

En este applet se construyeron dos histogramas. En gris, el histograma de una población de 5000 valores aleatorios entre 0 y 100; en azul, el histograma de las medias de 100 muestras de tamaño 50.

Presionando el botón reiniciar es posible recalcular todos los valores, y se puede observar cómo la distribución de las medias muestrales se aproxima a una distribución normal, con media μ (media poblacional) y desviación estándar σ/√50.

Esto quiere decir que si de una población determinada tomamos varias muestras de un mismo tamaño, la distribución de las medias se aproxima a una distribución normal. Y es muy sorprendente a simple vista, no importa qué distribución tenga la población, en este caso contamos con una distribución bastante equiparada; pero sus medias muestrales siempre tienden a formar un histograma en forma de campana.

Cabe destacar que en este caso estamos tratando cada muestra como si fueran variables aleatorias independientes e igualmente distribuidas. Además, el teorema central del límite requiere de un número “n” suficientemente grande, de manera que a mayor número de muestras debiéramos obtener mejores aproximaciones.

3. Estimación por intervalos de la media

En la Wikipedia en inglés se propone un ejemplo práctico para explicar el cálculo de un intervalo de confianza para la media, con desviación estándar conocida. A continuación tomo la idea general de este ejemplo, para enriquecer la explicación con applets de Geogebra.

Una máquina llena potes de margarina, y debe ajustarse para que el contenido sea de 250 gramos. Dado que la máquina no puede llenar cada pote con exactamente dicha cantidad, el contenido agregado cuenta con una cierta variación, lo que es considerado como la variable aleatoria X.

Si asumimos que esta variación está distribuida normalmente, con una desviación estándar de 2,5 gramos, y queremos determinar si la máquina está adecuadamente calibrada, se escoge una muestra de 25 potes de margarina, aleatoriamente, y son pesados. El resultado de medir las masas de margarina son X1, X2, X3,…, X25, una muestra aleatoria de X, que arroja como promedio 250,2 gramos.

Si tomamos otras 25 muestras, podríamos fácilmente esperar encontrar masas cercanas a 250,4 ó 251,1 gramos. Un promedio muestral de 300 gramos, en cambio, sería extremadamente raro. Existe, entonces, un intervalo alrededor de 250,2 gramos, dentro del cual, si la media de toda la población estuviera contenida, no sería considerado particularmente inusual. Tal intervalo es llamado el intervalo de confianza para el parámetro μ.

4. Intervalo de confianza

Los extremos del intervalo de confianza deben ser calculados desde las muestras, que son variables aleatorias, X1, X2, X3,…, X25, por lo tanto tales extremos también lo son.

En nuestro caso podemos determinar los extremos del intervalo considerando el teorema central del límite, es decir, que los promedios muestrales tienen una distribución normal, con una media μ y desviación estándar 0,5 gramos (σ/√n=2,5/√25=0,5).

Estandarizando obtenemos la variable aleatoria:

Esta variable aleatoria Z, distribuye normal (0,1) (es normal estándar), y es en relación a la misma es que nos preguntamos entre qué valores es posible que se encuentre Z con una determinada probabilidad, de donde surge la idea de un coeficiente o nivel de confianza.

5. Coeficiente de confianza

Para visualizar correctamente este applet, debes instalar (o activar) Java. Visita Java.com/es

En este applet observamos la distribución normal estándar, y en la esquina superior izquierda se ha resaltado la probabilidad asociada al nivel de confianza. Por ejemplo, la variable Z se encuentra entre -1,04 y 1,04 con un 70% de probabilidad.

Para el ejemplo anterior, si buscamos construir un intervalo con un 95% de confianza, es decir, que nos permita un error de sólo 0,5% (0,25% a cada lado), el valor Z apropiado es 1,96.

En términos algebraicos tenemos:

Los valores 1,96 y -1,96, usualmente se expresan haciendo referencia a z(α/2), siendo α el error estándar; y por lo tanto (α/2) el área que se deja a cada lado. De tal manera, Z(0,025)=-1,96 y por la simetría de la curva normal, tenemos que Z(0,975)=1,96. Estos son los valores que usualmente buscábamos en tablas, o que también se pueden calcular, por ejemplo, en Excel, con la fórmula: =INV.NORM(0,975;0;1).

Mientras que (1-α) sería el nivel de confianza, en este caso 0,95.

Luego, tenemos los valores -1,96 y 1,96, independientes de μ, entre los cuales se encuentra Z con una probabilidad de un 95%, lo que corresponde al nivel de confianza del intervalo a calcular.

6. Cálculo de los límites propiamente tales

El resto del desarrollo es más bien algebraico, y corresponde al proceso inverso de normalizar; es decir, determinar en qué intervalo se encuentra la media, sabiendo el intervalo en el que se encuentra la variable Z. Partimos de la desigualdad anterior, reemplazando los valores que conocemos:

En consecuencia, tenemos que la media se encuentra en el intervalo [249,22;251,18], con un nivel de confianza de un 95%. Si este problema se desarrolla en términos algebraicos con la misma lógica anterior, es relativamente directo llegar a la fórmula:

7.Intervalo de confianza para la media

Para visualizar correctamente este applet, debes instalar (o activar) Java. Visita Java.com/es

En este applet tenemos una población de 500 valores aleatorios entre 0 y 100. La línea horizontal μ corresponde a la media poblacional; mientras que la banda horizontal corresponde a un intervalo construido con el nivel de confianza “a”, a partir de una muestra, también aleatoria, de tamaño 10.

En este caso se puede observar que el tamaño del intervalo crece con mayores niveles de confianza, e inversamente con un nivel menor simplemente disminuye. También ocurrire, aunque en este applet no se puede observar, que el tamaño del intervalo depende de la desviación estándar, de manera que en poblaciones más dispersas tiende a ser mayor.

En cambio el promedio poblacional determina solamente la posición del intervalo, y como puede apreciarse en algunos casos, con niveles altos de confianza la media podría no estar contenida. Comparando varios intervalos de confianza podemos tener una interpretación más clara.

Al igual que en el applet anterior, presionando el botón se pueden recalcular los valores aleatorios.

8. Comparación de intervalos de confianza

Para visualizar correctamente este applet, debes instalar (o activar) Java. Visita Java.com/es

En este applet contamos con 50 muestras de tamaño 100, formadas por valores aleatorios entre 0 y 1000. Cada segmento representa un intervalo de confianza, calculado de la forma antes descrita.

Lo primero que hay que notar es que todos los intervalos tienen el mismo tamaño, pues en todos los casos dependen de la misma de la desviación estándar (poblacional) y el nivel de confianza. Luego, la única diferencia entre uno y otro, es la posición, que está determinada por la respectiva media muestral.

A medida que se eligen niveles de confianza mayores, las dimensiones de los intervalos aumenta, lo que permite que en mayor cantidad de casos esté contenida la media. Con un nivel de confianza de un 95%, por ejemplo, hay usualmente 3 ó 4 intervalos que no contienen la media.

Es importante aclarar que estamos derivando estos resultados del teorema central del límite, el cual habla de un “n” suficientemente grande. Luego, la distribución de los promedios muestrales se aproxima a una distribución normal, a mayor cantidad de muestras. Al mismo tiempo, dado que la posición de un intervalo de confianza depende del promedio muestral, el tamaño de cada muestra también influye; a mayor tamaño tiende a mejorar la estimación.

Así, no siempre tendremos exactamente un 95% de intervalos que contengan la media, aunque aumentando los valores antes mencionados, debieran ir mejorando la estimación.

9. Estimación de la media con desviación estándar desconocida (Intervalos T)

Es importante tener claro que este tipo de intervalo, construido con la distribución normal, requiere de dos condiciones básicas:

  1. Se conoce la desviación estándar poblacional.
  2. Se cuenta con muestras grandes (usualmente de 30 o más individuos)

Cuando tales condiciones no se dan, suele usarse considerarse un procedimiento similar, pero con la T de student, y en tales casos se usarán las desviaciones estándar muestrales, lo que trae como consecuencia que los intervalos no siempre sean del mismo tamaño.

Para visualizar correctamente este applet, debes instalar (o activar) Java. Visita Java.com/es

Una mayor descripción de este método se puede encontrar en la siguiente dirección: http://es.wikipedia.org/wiki/Distribución_t_de_Student, aunque es muy similar a lo antes descrito, dado que el coeficiente de confianza se calcula con la T de Student y la desviación estándar que se utiliza es la de la muestra.

Videos

Finalmente dejo algunos videos de las construcciones hechas en Geogebra.

Además aprovecho de recomendar la web de Manuel Sada, epecialmente la sección de estadística y probabilidad: http://docentes.educacion.navarra.es/msadaall/geogebra/normal.htm, donde encontrarán más ejemplos de Geogebra para estos temas.

Geometría, Procesadores geométricos , , ,

Artículo publicado en http://www.geometriadinamica.cl/2012/02/intervalos-de-confianza/.