sábado, 4 de agosto de 2012

Pruebas de hipótesis para medias


Supongamos que una cadena de tiendas desea abrir una sucursal en un centro comercial. De acuerdo con la administración de este centro comercial, durante los fines de semana cada visitante gasta en promedio $\$$ 255.00. El gerente de la cadena desea verificar si esta cifra es correcta antes de aprobar la apertura de la nueva sucursal, y decide realizar una muestra aleatoria de n = 50 visitantes durante algunos fines de semana con la intención de aceptar la hipótesis  de que el gasto  medio de los visitantes es efectivamente $\mu$=  $\$$ 255.00 si la media de la muestra cae entre $\$$ 235.00 y $\$$ 275.00; y rechazar esta hipótesis si la media de esta muestra resulta ser mayor que $\$$ 275.00 o menor que $\$$ 235.00.
Si bien este criterio de aceptación o rechazo es claro, no es infalible. Puesto que la decisión está basada en una muestra, se podrían cometer dos tipos de error al aplicar el criterio:
a) Existe la posibilidad de que el gasto promedio real de los visitantes este entre $\$$ 235.00 y $\$$ 275.00, pero que la media de la muestra sea mayor que $\$$ 275.00 o menor que $\$$ 235.00,
b) Existe la posibilidad de que el gasto promedio real de los visitantes no caiga dentro del intervalo de $\$$ 235.00 a $\$$ 275.00, pero que la media de la muestra si caiga en este intervalo.
En el primer caso, al rechazar una hipótesis verdadera, cometemos un error que llamamos error tipo I; mientras que en el segundo caso, al aceptar una hipótesis falsa cometemos un  error que se conoce como error tipo II. Al intervalo que eligió el gerente de la cadena de tiendas de $\$$ 235.00 a $\$$ 275.00 le llamamos región de aceptación y a los valores menores a  $\$$ 235.00 o mayores que $\$$ 275.00 le llamamos región de rechazo.
Supongamos que el gerente de la cadena de tiendas sabe de estudios similares que la desviación estándar para gastos en centros comerciales es de $\$$ 80.00.  Investiguemos la probabilidad de que se cometa el error tipo I, es decir, de que la media de la muestra $\bar{x}$ sea mayor que $\$$ 275.00 o menor que $\$$ 235.00 cuando la $\mu$ es de $\$$255.00 . En este caso, por el teorema del límite central, sabemos que la distribución muestral de las medias tiene media $\mu_\bar{x}$= $\mu = 255$ y desviación estándar   $\sigma_\bar{x}$=$\frac{ \sigma}{\sqrt[]{n}}=\frac{80}{\sqrt[]{50}} = 11.31$.
En la siguiente figura podemos identificar la probabilidad de rechazar la hipótesis como el área bajo la curva normal a la izquierda de 235 más el área bajo la curva normal a la derecha de 275.

Para calcular estas áreas por medio de la tabla de áreas bajo la curva normal debemos expresar estos valores en unidades estándar, y obtenemos

$z=\frac{x-\mu}{\sigma}=\frac{235-255}{11.31}=-1.77$ y $z=\frac{x- \mu}{\sigma}=\frac{275-255}{11.31}=1.77$
En la tabla de areas bajo la curva normal podemos entonces ver que el área bajo la curva normal entre 0 y 1.77 es de 0.46, y como toda el área a la derecha del 0 es 0.5, el área a la derecha de 1.77 bajo la curva normal estándar es de 0.5-0.46=0.04. Además, que por simetría, el área entre 0 y -1.77 es también 0.46. Por lo tanto la probabilidad de que la media muestral $ \bar{x}$ sea mayor que 275 es 0.04 y la probabilidad de que sea menor que 235 es también 0.04, de modo que la probabilidad  de cometer el error tipo I sería de 0.08.

A la hipótesis que deseamos comprobar o rechazar le llamamos la hipótesis nula. En el caso que acabamos de analizar la hipótesis nula es $\mu$ = $\$$ 255.00, y como estamos interesados en probar si esto es verdadero o falso, la estamos confrontando con la hipótesis alternativa: $\mu$ $\neq$ $\$$ 255.00. A este tipo de hipótesis alternativa le llamaremos alternativa bilateral, ya que la región de rechazo consta de dos segmentos: los valores menores que $\$$ 235.00 y los valores mayores que $\$$ 275.00. Hay situaciones donde la región de rechazo consta de un solo segmento, como puede ser el caso si deseamos saber si cierto tipo de maquina tiene una productividad media superior  400 piezas por hora, donde probaríamos la hipótesis nula $\mu = 400 piezas $.en contra de la hipótesis alternativa  $\mu  > 400 piezas$, o bien, el caso de cierta tecnología que permita bajar el nivel de contaminantes emitidos, donde probaríamos la hipótesis nula de $\mu$ = 4 mg de cianuro por $m^ 3$, en contra de la hipótesis alternativa $\mu  < 4 mg$ de cianuro por $m^ 3$. A este tipo de hipótesis alternativas se les conoce como alternativas unilaterales. Cuando el interés de una prueba de hipótesis radica en determinar si la media de la población es mayor (o menor) que cierto valor la hipótesis alternativa es unilateral.

Hipótesis alternativa:  $\mu  >   \mu_0$

Hipótesis alternativa:  $\mu  <   \mu_0$


Podríamos considerar con razón que el gerente de la cadena de tiendas estableció los límites para la región de aceptación de manera arbitraria. Es más usual que la región de aceptación se base en especificar la probabilidad de cometer el error tipo I. A esta probabilidad le llamamos nivel de significancia y sus valores más empleados son 0.05 y 0.01. Probar una hipótesis al nivel de significancia 0.05 significa simplemente que la probabilidad de rechazar una hipótesis verdadera es 0.05. Observemos que al hacer el nivel de significancia muy pequeño, es decir la  probabilidad de rechazar una hipótesis verdadera muy pequeña, agrandamos la región de aceptación, y por lo tanto, aumentamos de la probabilidad de aceptar una hipótesis falsa. En otras palabras, entre menor sea la probabilidad de cometer un error tipo I, mayor  es la probabilidad de cometer un error de tipo II.

Una  vez que se ha decidido el nivel de significancia, la prueba de hipótesis $\mu$  =   $\mu_0$ consiste en calcular las regiones de aceptación y rechazo y determinar a cuál de estas regiones pertenece  la media de la muestra observada por $ \bar{x}$. Este procedimiento puede simplificarse considerablemente en el caso de que el tamaño de la muestra sea grande (n > 30), pues es equivalente a pasar la media muestral observada $\bar{x}$ a unidades estándar por la fórmula
$z = \frac{\bar{x}-  \mu_0}{\frac{\sigma}{\sqrt[]{n}}}$.


Y determinar si este valor se encuentra dentro de los valores críticos. En la siguiente tabla mostramos los valores críticos para los niveles de significancia de 0.05 y de 0.01 cuando el tamaño de la muestra es grande (n > 30).

Ya habíamos empleado los valores críticos bilaterales para determinar los intervalos de confianza del 95%  y del 99%. En el caso de hipótesis alternativas unilaterales  estos valores corresponden al valor de z para el cual el área a su derecha es 0.05 o 0.01.
Presentamos ahora dos ejemplos donde probaremos hipótesis sobre medias con tamaño de muestra grande.
a) Un ingeniero de producción de una maquiladora desea verificar si el tiempo promedio de ensamblado de un circuito es efectivamente 42 segundos, como lo asegura el reporte de otra planta semejante. El ingeniero realiza una muestra aleatoria de tamaño n=40 y obtiene una media $\bar{x}$ = 44.5 segundos y una desviación estándar de esta muestra s=4.1 segundos. Si el ingeniero decide basar su decisión en un nivel de significancia de 0.05 ¿debe aceptar el tiempo promedio de ensamblado de 42 segundos como correcto?
La hipótesis nula es $\mu$ = 42 segundos, y como al ingeniero le interesa tanto la posibilidad de que $\mu$ > 42 como la de que $\mu$ < 42, la hipótesis alternativa es $\mu \neq 42$ y es bilateral. Como el nivel de significancia  es de 0.05, el criterio es entonces el de rechazar la hipótesis nula si $\bar{x}$=44.5 cuando z > 1.96 o z < -1.96, donde
$z = \frac{\bar{x}-  \mu_0}{\frac{\sigma}{\sqrt[]{n}}}$
Como el ingeniero no tiene información extra sobre la variabilidad del tiempo de ensamblado, debe sustituir s=4.1 como desviación estándar $\sigma$. Sustituyendo en la expresión de arriba, vemos que
$z = \frac{44.5-  42}{\frac{4.1}{\sqrt[]{40}}}=3.86$
Que resulto mayor que 1.96. La hipótesis $\mu$=42 segundos debe ser rechazada. Esto es, la diferencia entre 44.5 y 42 es demasiado grande para ser atribuida al azar, y el ingeniero debe concluir que el tiempo medio de ensamblado del circuito es diferente de 42 segundos.
b) El gerente de una empresa de reparto de paquetería está alarmado por el alto consumo de gasolina de sus vehículos y desea determinar si el consumo medio de gasolina de sus Volkswagen es efectivamente de 12.6 kilómetros por litro de gasolina. Para ello realiza una muestra aleatoria de 36 Volkswagen y obtiene una media de $\bar{x}$ = 12.9 km/ l . El gerente sabe que debido a las diferentes condiciones de los repartos una desviación estándar de $\sigma$ = 0.9 km /l es adecuada. ¿Qué puede concluir si desea tener un nivel de significancia del 0.01?
La hipótesis nula es $\mu$ = 12.6 km/l, pero como ahora el gerente está interesado en saber si el rendimiento promedio de sus Volkswagen, es  mayor a 12.6, la hipótesis alternativa es $\mu$  > 12.6 km /l. Puesto que la prueba es unilateral y el nivel de confianza es de 0.01, entonces el criterio es rechazar la hipótesis nula si z > 2.33, donde
$z = \frac{\bar{x}-  \mu_0}{\frac{\sigma}{\sqrt[]{n}}} =\frac{12.9-12.6}{\frac{0.9}{\sqrt[]{36}}} =2$
Como 2 no es mayor que 2.33 la hipótesis nula no puede ser rechazada. En otras palabras, la diferencia entre $\bar{x}$= 12.9 y $\mu $ =12.6 es tan pequeña que se puede deber al azar.


Las pruebas de hipótesis cuando el tamaño de la muestra es pequeño, n  < 30, y la forma de distribución de la población es acampanada se realizan prácticamente como en el caso de muestras grandes, sólo que ahora se verifica si el valor de t es dado por


$t=\frac{\bar{x}- \mu_o}{\frac{s}{\sqrt[]{n}}}$
Se encuentra dentro de los valores críticos dados por latabla de valores de t.Al igual que con los intervalos de confianza, para pruebas de hipótesis bilaterales  con nivel de significancia $\alpha$ consideramos la columna correspondiente a $\alpha/2$; mientras que para pruebas unilaterales con nivel de significancia $\alpha$ consideramos la columna correspondiente a $\alpha$
A continuación se analizan dos casos de pruebas  de hipótesis para medias con tamaño de la muestra pequeño.

a) El gerente de compras de una tienda de autoservicio analiza la cantidad de azúcar de un lote de naranjas procedentes de Veracruz para determinar su precio de venta. De acuerdo con el productor, el contenido de azúcar de las frutas es en promedio 12.5%. El gerente envía a analizar una muestra aleatoria de n=20 naranjas y los resultados del laboratorio arrojan una media en $ \bar{x}$=11.9 % de azúcar y una desviación estándar s =0.9%. ¿Debe el gerente aceptar la afirmación del productor  de que el promedio de azúcar es del 12.5% si el nivel de significancia es 0.05?
La hipótesis nula es $\mu$ =12.5%, y como el gerente tiene interés en saber si $ \mu$ es mayor al 12.5 % o si es menor al 12.5%, la hipótesis alternativa es $ \mu  \neq 12.5$%. Se tienen 20-1 = 19 grados de libertad, y como se trata de una prueba bilateral, debemos buscar en la columna correspondiente a 0.05/2 = 0.025. El valor de t es 2.093. La hipótesis debe rechazarse si t > 2.093 o si t  < -2.093. Como
$t=\frac{\bar{x}- \mu_o}{\frac{s}{\sqrt[]{n}}}=\frac{11.9-12.5}{\frac{0.9}{\sqrt[]{20}}}=-2.98$
Entonces t < - 2.093 (ya que -2.98 se encuentra a la izquierda de -2.093 en la recta real) y por lo tanto se debe rechazar la hipótesis, puesto que la diferencia en el porcentaje de azúcar entre 12.5 y 11.9 es muy grande para deberse a la variabilidad de las diferentes muestras.
b)Un narcotraficante recibe un cargamento de cocaína empacada en sobres de 2 mg y debe pagar por el cargamento o rechazarlo si el contenido de los sobres no es el especificado. Como no tiene tiempo de analizar el peso de todos los sobres, realiza una muestra aleatoria de n =10 sobres. Después de pesarlos obtiene una media  $\bar{x}$=1.97 mg y una desviación estándar de los pesos de los sobres s=0.04 mg. ¿Debe el narcotraficante aceptar o rechazar el pedido si el nivel de significancia es 0.01?

La hipótesis nula es $ \mu$= 2 mg, y  como el narcotraficante está interesado en saber si el peso medio de los sobres es menor que 2 mg, la hipótesis alternativa es $\mu$ < 2. Se tienen 10-1 = 9 grados de libertad, y como se trata de una prueba unilateral, debemos buscar en la columna correspondiente a 0.01. El valor de t es 2.821. La hipótesis debe rechazarse si t <-2.821, donde
$t=\frac{\bar{x}- \mu_o}{\frac{s}{\sqrt[]{n}}}= \frac{1.97-2}{\frac{0.04}{\sqrt[]{10}}}=-2.37$
Si colocamos en la recta real los números -2.821 y -2.37, entonces -2.821 aparece a la izquierda de -2.37, esto es, -2.37 es mayor que -2.821. Como -2.37 no es menor que -2.821, el narcotraficante debe aceptar la hipótesis de que el peso promedio de las bolsas de cocaína es 2 mg; esto es, la diferencia entre 2 y 1.97 mg se puede deber a la variabilidad de los pesos medios de las diferentes muestras. Por tanto, el narcotraficante debe aceptar el pedido.


1 comentario:

Anónimo dijo...

Me podrian decir de que libro es porfavor. C: Gracias