sábado, 29 de septiembre de 2012

Pruebas de hipótesis para proporciones y diferencias de proporciones.


En esta post abordaremos el problema de probar, basándonos en datos observados en una muestra, si el valor de una proporción, porcentaje o probabilidad es igual a cierta constante. Mediante estas pruebas es posible a través de muestras aleatorias, por ejemplo, decidir si la proporción de estudiantes de un plantel del Conalep que fuman es igual 0.6 o si la probabilidad de que una empresa reciba pedidos por más de $\$$  60 000.00 a la semana es de 0.30. Este tipo de decisiones se fundamentan, por ejemplo, en el número $\overline{x}$ de estudiantes que fuman de una muestra de tamaño n, y en general, en el número  $\overline{x}$ de de éxitos observados en n ensayos. Cuando el tamaño de la muestra es grande ($n \geq 30$), los métodos para probar proporciones son básicamente idénticos a los de las medias de estos 2 posts.
Supongamos que deseamos saber si la proporción de teléfonos en una zona de oficinas que contrataron a Avantel como su compañía de larga distancia es igual a la proporción de 0.2 que Salma Hayek asegura en los comerciales de Avantel. Supongamos además que decidimos  basar nuestra prueba en un nivel de significancia de 0.05 y en una muestra aleatoria de 150 teléfonos.
La hipótesis nula es p = 0.2 y la hipótesis alternativa es $p \neq 0.2$. Si suponemos que la proporción de 0.2 es la proporción real de teléfonos en la zona de oficinas, entonces el número $ \bar{x}$ de teléfonos de la muestra que contrataron Avantel tiene una distribución binomial con parámetros n = 150 y $p_0 = 0.2 $. Como n es grande, podemos aproximar esta distribución por una distribución normal con media $np_0 = 150 x 0.2 = 30$ y desviación estándar $\sqrt[]{np_0 (1-p_0)} = \sqrt[]{150 \cdot{0.2 (1-0.2)}}= 4.9$. Esto significa que la probabilidad de que
$-1.96 < \frac{\overline{x}-30}{4.9} < 1.96$
es0.95. Por lo tanto vamos a aceptar la hipótesis p = 0.2 únicamente si se satisface la desigualdad anterior. Por ejemplo, si $ \overline{x}$ fuese 26, entonces $\frac{26-30}{4.9} = -0.81$, y como este valor se encuentra entre -1.96 y 1.96, debemos aceptar la proporción de teléfonos en la zona suscritos  a Avantel es 0.2.
En general, las pruebas para probar si $p=p_0$ se basan en determinar si
$ z=\frac{\overline{x}-np_0}{\sqrt[]{np_0(1-p_0)}}$
Se encuentra dentro de los mismos valores críticos para medias con muestras grandes:


Consideremos ahora un ejemplo unilateral. Supongamos que las oficinas de Green Peace en México sospechan que el porcentaje de días invernales que se rebasan los 200 imecas de ozono en la zona Suroeste del D.F es superior al 50% que afirman las autoridades ambientales del departamento del distrito federal. En una muestra aleatoria de 70 días invernales de diferentes años se observa que en 42 se rebasaron los 200 imecas en la zona suroeste. Con un nivel de significancia de 0.05, ¿hay evidencia estadística para rebatir a las autoridades del Departamento del Distrito Federal?
La hipótesis nula es p =0.5 y la hipótesis alternativa es p > 0.5. Como el nivel de significancia es de 0.05 la hipótesis nula debe rechazarse si z  > 1.645, donde
$ z=\frac{\overline{x}-np_0}{\sqrt[]{np_0(1-p_0)}}=  z=\frac{42-70\cdot{0.5}}{\sqrt[]{70\cdot{0.5}(1-0.5)}}=1.67$
Como 1.67 resultó mayor que 1.645, se rechaza la hipótesis nula; esto es, con probabilidad de 0.95, más del 50% de los días invernales rebasan los 200 imecas de ozono.

Las pruebas para diferencias entre proporciones se basan en el siguiente hecho: si $\overline{x}_1$  es el  número de éxitos obtenidos en una muestra de $n_1$ ensayos independientes con una probabilidad de éxtio de $p_1$ y si $\overline{x}_2$ es el número de éxitos obtenidos en una muestra de $n_2$ ensayos independientes con una probabilidad de éxito de $p_2$, entonces la distribución de la diferencia de las proporciones $\frac{\overline{x}_1}{\overline{n}_1}-\frac{\overline{x}_2}{\overline{n}_2}$ tiene media $p_1 – p_2$ y desviación estándar
$\sqrt[]{\frac{p_1 (1-p_1)}{n_1}+{\frac{p_2 (1-p_2)}{n_2}}}$
Cuando probamos la hipótesis nula $p_1 = p_2 $ la media de la diferencia $ \frac{\bar{x_1}}{n_1} - \frac{\bar{x_2}}{n_2}$ es 0 u su desviación estándar es
$ \sqrt[]{p(1-p)(\frac{1}{n_1}+\frac{1}{n_2})}$
Donde la proporción p es en general estimada como la proporción combinada $\frac{\overline{x}_1+\overline{x}_2}{\overline{n}_1+\overline{n}_2}$.

Así, cuando $\overline{n_1}\geq 30$ y $\overline{n_2}\geq 30$ podemos probar la hipótesis nula $p_1 = p_2$ utilizando los mismos criterios que para pruebas de hipótesis para proporciones con muestras grandes , sólo que ahora


$z=\frac{\frac{\overline{x}_1}{n_1}-\frac{\overline{x}_2}{n_2}}{\frac{\overline{x}_1 + \overline{x}_2}{n_1 + n_2}(\frac{1}{n_1}+\frac{1}{n_2})}$

Ilustrare con dos ejemplos la manera de emplear esta expresión en la prueba de diferencias de medias.
a) ¿Fuman más los estudiantes de preparatoria que los del Conalep? Supongamos que de una muestra aleatoria de 80 estudiantes de una escuela preparatoria, 49 de ellos  habían consumido seis o más cigarrillos en la última semana, mientras que de una muestra de 90 estudiantes de un plantel del Conalep, 44 de ellos habían  consumido 6 o más cigarrillos en la última semana. Veamos si con un nivel de significancia de 0.05 es posible afirmar que las proporciones de fumadores en estos planteles son diferentes.

La hipótesis nula es $p_1 =p_2$ y, como estamos interesados en saber si estas proporciones son diferentes, la hipótesis  alternativa es $p_1 \neq p_2 $. La hipotesis nula se rechaza si z <  -1.96 ó z > 1.96, donde
$z=\frac{\frac{\overline{x}_1}{n_1}-\frac{\overline{x}_2}{n_2}}{\frac{\overline{x}_1 + \overline{x}_2}{n_1 + n_2}(\frac{1}{n_1}+\frac{1}{n_2})}=\frac{\frac{49}{80}-\frac{44}{90}}{\frac{49 + 44}{80+90}(\frac{1}{80}+\frac{1}{90})}= \frac{\frac{49}{80}}{\frac{93}{170}(\frac{17}{720})} = 1.09$
Como 1.09 no es mayor que 1.96 no podemos concluir que  los estudiantes de un centro educativo fuman más que los del otro.
b) Un laboratorio desea saber qué tan efectivo en el tratamiento de dolores de aveza resulta duplicar la dosis que usualmente se recomienda. Para ello a un grupo de 60 pacientes con dolor de cabeza se les suministra la doble dosis y a otro grupo con 60 pacientes se les suministra la dosis normal. Si del primer grupo 51 pacientes sintieron una mejoría sustancial y del segundo grupo sólo 34 pacientes la sintieron, ¿Qué podemos concluir del beneficio de duplicar la dosis con un nivel de significancia de 0.05?
La hipótesis nula es $p_1 = p_2$ y, como estamos interesados en saber el efecto de duplicar la dosis, la hipótesis alternativa es $p_1  >  p_2$. La hipótesis nula se rechaza si z > 1.645, donde

$z=\frac{\frac{\overline{x}_1}{n_1}-\frac{\overline{x}_2}{n_2}}{\frac{\overline{x}_1 + \overline{x}_2}{n_1 + n_2}(\frac{1}{n_1}+\frac{1}{n_2})}=\frac{\frac{51}{60}-\frac{34}{60}}{\frac{51 + 34}{60+60}(\frac{1}{60}+\frac{1}{60})}= \frac{\frac{17}{60}}{\frac{85}{120}(\frac{2}{60})} = 1.84$

Como z=1.84 es mayor que 1.645, debemos concluir que con una probabilidad de 0.95 duplicar la dosis mejora la efectividad del analgésico.


sábado, 22 de septiembre de 2012

Intervalos de confianza para proporciones


En la estimación de proporciones usualmente se dispone de una proporción muestral $\frac{\bar{x}}{n}$, donde $\bar{x}$ es el número de veces que un evento ha sucedido en n ensayos. Por ejemplo su 34 de 180 entrevistados aleatoriamente gastaron más de $\$$ 200.00 , entonces $\frac{\bar{x}}{n} = \frac{36}{180} = 0.189$ es una estimación de la proporción de visitantes del centro comercial que gastan más de $\$$ 200.00. Como un porcentaje es una proporción multiplicada por 100, y una probabilidad puede interpretarse como una proporción en el largo plazo, también  podríamos decir que estimamos que el 18,9 $\%$ de los visitantes del centro comercial gastan más de $\$$ 200.00 o que la probabilidad de que un visitante del centro comercial gaste más de $\$$ 200.00 es de 0.189. Por lo tanto, en cierto modo las estimaciones de proporciones, porcentajes y probabilidades son esencialmente iguales, Si suponemos además que las situaciones que estudiamos satisfacen las condiciones de una distribución binomial, esto es, nuestra información  consiste en el número $\bar{x}$ de ensayos independientes y la probabilidad  de éxito de cada uno de los ensayos tiene un valor constante p, la variable aleatoria $\bar{x}$   resulta binomial. Cuando el tamaño de la muestra es grande ($n \geq 30$) sabemos que esta distribución binomial es aproximadamente normal, con media $\mu = np$ y con desviación estándar $  \sigma = \sqrt[]{np (1-p)}$. Entonces , la variable
$z=\frac{\bar{x}-np}{\sqrt[]{np (1-p)}}$
Tiene prácticamente una distribución normal estándar. Sabemos, por ejemplo, que la probabilidad de que z se encuentre entre -1.96 y 1.96 es 0.95; esto es, la probabilidad de que

$-1.96=\frac{\bar{x}-np}{\sqrt[]{np (1-p)}} < 1.96 $

Es 0.95. Procediendo como en la sección 6.1, se puede ver que esta desigualdad se cumple cuando
$\frac{\bar{x}}{n} -1.96 \sqrt[]{\frac{p(1-p)}{n}} < p < \frac{\bar{x}}{n} + 1.96 \sqrt[]{\frac{p(1-p)}{n}}$
Desafortunadamente, no podemos emplear esta expresión para obtener un intervalo de confianza para p, ya que la variable p aparece también de lado izquierdo y derecho de la igualdad. Una alternativa razonable consiste en sustituir
$\sqrt[]{\frac{p(1-p)}{n}}$
Por
$\sqrt[]{\frac{\frac{\bar{x}}{n}(1-\frac{\bar{x}}{n})}{n}}=\sqrt[]{\frac{\frac{\bar{x}}{n}(\frac{n-\bar{x}}{n})}{n}}=\sqrt[]{\frac{\bar{x}(n-\bar{x})}{n^3}}=\frac{1}{n}\sqrt[]{\frac{\bar{x}(n-\bar{x})}{n}}$

Para llegar a la siguiente expresión para los intervalos de confianza de 95 $\%$


$\frac{\bar{x}}{n}-\frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}} < p < \frac{\bar{x}}{n}+ \frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$
Para la estimación de intervalos de confianza de 99$\%$ para p simplemente sustituimos el valor 1.96 por 2.575 para obtener
Intervalos de confianza de 99$\%$
$\frac{\bar{x}}{n}-\frac{2.575}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}} < p < \frac{\bar{x}}{n}+ \frac{2.575}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$
Supongamos que al realizar una encuesta a 360 ciudadanos de un municipio, 136 de ellos afirman que tienen la intención de votar por cierto candidato a la presidencia municipal. Para obtener el intervalo de confianza del 95% para la proporción verdadera de ciudadanos que pretendan votar por este candidato, vemos que al sustituir los valores $\overline{x}$ = 136  y n=360 en
$\frac{\bar{x}}{n}-\frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}} < p < \frac{\bar{x}}{n}+ \frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$
Se tiene
$\frac{{136}}{360}-\frac{1.96}{360}\sqrt[]{\frac{{360}(360-136)}{360}} < p < \frac{{136}}{360} + \frac{1.96}{360}\sqrt[]{\frac{{360}(360-136)}{360}}$
Que es
0.328 < p < 0.428
Esto significa que con un grado de confianza de 95 $\%$ , la proporción de todos los ciudadanos que piensan votar por este candidato se encuentra entre  0.328 y 0.428. Equivalentemente podemos, afirmar que con probabilidad 0.95, entre el 32.8 % y el 42.8 % de los ciudadanos piensa votar por este candidato.
Para construir el intervalo de confianza de 99% procedemos análogamente, simplemente  cambiando el factor 1.96 por 2.575:
$\frac{{136}}{360}-\frac{2.575}{360}\sqrt[]{\frac{{360}(360-136)}{360}} < p < \frac{{136}}{360} + \frac{2.575}{360}\sqrt[]{\frac{{360}(360-136)}{360}}$
Que da
0.12 <  p  <  0.444.
De nuevo, entre mayor sea el grado de confianza más grande resulta el intervalo.
Como los intervalos de confianza se construyen sumando y restando los facotres
$\frac{1.96}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$ o  $\frac{2.575}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}$
Al centro $\frac{\bar{x}}{n}$ , estos factores representan el error máximo asociada a la estimación de la proporción. Por ejemplo, si en una encuesta telefónica a 400 hogares que tenían la televisión encendida, 118 de ellos veían cierta telenovela, entonces podemos tomar a $\frac{\bar{x}}{n}=\frac{118}{400}=0.295$ como nuestra estimación de la proporción de televidentes que ven esta telenovela. Entonces, con un grado  de confianza del 99%, el error en nuestra estimación es menor que
$\frac{2.575}{n}\sqrt[]{\frac{\overline{x}(n-\overline{x})}{n}}=\frac{2.575}{400}\sqrt[]{\frac{118(400-118)}{400}}=0.059$
Que representa un error menor al 5.9 $\%$.