martes, 21 de febrero de 2012

0024.1 Distribuciones de frecuencia

La institución oficial en México que se encarga de recolectar clasificar y analizar datos es el Instituto Nacional de Estadística, Geografía e Informática (INEGI). Los datos que recolecta el INEGI abarcan multitud de aspectos de la vida social y económica del país . Tomemos por ejemplo los matrimonios que ocurrieron en México durante el año de 1995. En este periodo se efectuaron 658114 matrimonios. Para cada uno de estos matrimonios, el Registro civil guarda un expediente que contiene piezas de información tales como los nombres de los contrayentes, sus fechas de nacimiento, edad, lugar de residencia, nacionalidad, ocupación, escolaridad, et. ¿Cómo podríamos presentar todo este universo de datos e información de manera sencilla? Para difundir los resultados de sus estudios, el INEGI los agrupa y ordena de manera que sea posible obtener una visión global clara sin perder mucha información. Es obvio que debido a la variedad de información que contiene cada expediente, es necesario seleccionar algún aspecto de interés para agrupar y ordenar toda esta información .Esta selección depende indudablemente de los aspectos que deseamos estudiar y analizar toda esta información, Esta selección depende indudablemente de los aspectos que deseamos estudiar y analizar. Un aspecto de interés general es la edad de los contrayentes, mientras que saber cuántos Manueles se casaron con Luceros, o cuántos hombres de signo acuario se casaron con mujeres de signo escorpión evidentemente no lo es.

Con frecuencia agrupamos los datos en cierto número de clases (llamados también intervalos o categorías) como lo muestra la siguiente tabla de matrimonios en México durante 1995.



Una Tabla como esta es llamada una distribución de frecuencias. La mayoría de los intervalos en esta distribución son de cinco años. Observemos que al escoger estas clases la información se simplifica considerablemente; de no ser así, la tabla tendría más de 75 renglones, correspondientes a las edades de las contrayentes. Por supuesto que al hacer esta simplificación se pierde cierta información. Por ejemplo, a partir de la distribución de frecuencia podemos observar que durante 1995 se casaron casi el doble de mujeres entre los 15 y los 19 años que entre los 25 y los 19 años, pero no podemos determinar si hubo más matrimonios de mujeres de 18 años que de mujeres de 26 años.

Con excepción de la primera y la última, las clases están determinadas por una pareja de números , llamados límites de clase. Por ejemplo, los limites de la tercera clase son 20 y 24. De hecho, los valores 15, 20,25,...45 son llamados límites inferiores, mientras que los valores 19, 24, 29,...,49 son los límites superiores. A la diferencia entre el limite superior de una clase y el límite superior de la clase anterior se le conoce como el intervalo de la clase. Por ejemplo el limite superior de la tercera clase es 24 y el limite superior de la segunda es 19 de modo que el intervalo de la clase es 24-19= 5.

Si las clases en que agrupamos los datos son determinadas por intervalos numéricos, como en el caso anterior, decimos que la distribución es numérica o cuantitativa. Cuando los datos no son agrupados en clases numéricas la distribución es categórica o cualitativa , como la siguiente tabla que nos muestra los divorcios ocurridos en el país durante 1995 de acuerdo a sus causas.

El diseño de una distribución de frecuencias depende esencialmente de cómo seleccionamos las clases. Para las distribuciones numéricas esta elección es arbitraria, pero hay algunas reglas generales que es conveniente observar:

1. El Número de clases en general debe ser entre 5 y 15, dependiendo del número de observaciones o datos que debemos agrupar.

Por ejemplo, si se tienen únicamente 8 datos, resultaría absurdo agruparlas en una distribución de 12 clases, donde varias de ellas resultarían vacías. Asimismo perderíamos mucha información si decidiéramos agrupar los 658 114 matrimonios durante 1995 en sólo tres o cuatro clases.

2.- Cada dato debe pertenecer exactamente a una clase.

Esto significa que debemos elegir las clases de tal manera que dos clases no tengan datos en común y que además cualquier dato pertenezca a una clase.

3.-Siempre que sea posible, elegir clases con intervalos numéricos iguales.

La tabla de distribución de matrimonios por edades de la contrayente cumple casi todas estas reglas, a excepción de la última , ya que la primera y la última clase no están determinadas por un intervalo de cinco años. La primera corresponde a matrimonios donde la contrayente es menor de 15 años, mientras que la última corresponde a matrimonios donde la contrayente tiene 50 o más años. A este tipo de clases se les llama abiertas y están definidas por expresiones como “ó mayores”, “mayores que”, “ó menores” o “menores que”. Una regla que siempre hay que considerar es la siguiente: cuando empleamos clases abiertas es deseable, que con el fin de no perder demasiada información, éstas contengan pocos datos en relación con el resto de las clases.

Consideremos ahora los resultados de un examen de física practicado a un grupo de 30 alumnos. La siguiente tabla muestra las calificaciones de este examen.

Como se trata de calificaciones escolares, los maestros usualmente aplican la regla de que de medio punto para arriba la clasificación sube, mientras que debajo de medio punto no sube, por lo que en este caso es razonable agrupar los datos de acuerdo con la calificación que recibirán. Esto nos sugiere que en general la elección de los intervalos de las clases depende del fenómeno que estamos analizando.
La cuarta clase, por ejemplo corresponde a los exámenes que recibirán 7 de calificación en la boleta, esto es, a los exámenes con calificación igual o mayor a 6.5 y menor o igual a 7,4. Así, 6.5 es el limite inferior de esta clase y 7.4 es el límite superior de esta clase. Para la tercer clase, estos límites son 5.5 y 6.4 respectivamente. El intervalo de la cuarta clase es entonces 7.4 – 6.4 = 1, respectivamente. Sin embargo, si los valores numéricos de las calificaciones son más detallados y contienen dos o más decimales, sería necesario cambiar los límites de las clases a 6.5 y 7.49 , o quizás, a 6.5 y 7.499. Para evitar este tipo de antigüedad es conveniente considerar otro concepto análogo a los límites de la clase, el de los valores divisorios o frontera de una clase. Un dato pertenece a la primer clase si su valor es mayor o igual a 3.5 y menor que 4.5, un dato pertenece a la segunda clase si su valor es mayor o igual que 4.5 y menor que 5.5 , etc. En este caso los valores divisorios de las clases son 3.5,4.5,5.5,...9,5,10.

Al promedio entre los valores divisorios de una clase le llamamos la marca de la clase o punto medio de la clase. Por ejemplo , para la cuarta clase sus valores divisorios son 6.5 y 7.5 por lo que su marca o punto medio es (6.5 +7.5) / 2 = 7, que es precisamente la calificación asignada en la boleta para los exámenes que caen en esta clase.

Para el caso de los matrimonios durante 1995, los valores divisorios a partir de la segunda clase son 15, 20,25,etc. Las marcas de clase son entonces (15 +20) / 2 = 17.5. (20+25 )/2 =22.5, etc.

La distribución de frecuencias puede modificarse un poco y presentar los datos de manera porcentual, dividiendo el número de observaciones de cada clase por el total de observaciones y luego multiplicando por 100. Por ejemplo, para la tabla anterior podemos calcular los porcentajes dividiendo los números de la columna derecha por 30 y luego multiplicando por 100. Por ejemplo sabemos que 8 alumnis obtuvieron entre 7.5 y 8.4 en el examen, así que el porcentaje de éstos es de 8/30 x 100 = 26.67.
Los otros porcentajes se obtienen de manera semejante y son mostrados en la siguiente tabla.



¿Por qué la suma de los pórcentajes es un poco mayor que 100? ¿Hay un error en los cálculos? Este fenómeno sucede con frecuencia y se debe a los errores de redondeo por considerar únicamente dos decimales.

Cuando las distribuciones de frecuencia son construidas para describir de manera sencilla grandes cantidades de datos, los histogramas constituyen una forma gráfica de representarlas. Un histograma se construye asignando a las medidas de las clases la escala horizontal y a las frecuencias de cada una de las clases la escala vertical. En general no es conveniente emplear histogramas cuando algunas clases son abiertas  o cuando los intervalos de las clases no son iguales. El siguiente histograma representa los resultados del examen de fisica que hemos analizado previamente.


Aquí es fácil apreciar que la calificación que apareció con mayor frecuencia fue el ocho, ya que la barra asociada al ocho es la más alta, así como que la calificación menos frecuente fue el cuatro, pues su barra señala únicamente una unidad. Existen otras maneras gráficas de presentar datos que se emplean con menos frecuencia que el histograma, como por ejemplo los polígonos de frecuencia. En el caso de los polígonos de frecuencia cada clase se representa por un punto cuya coordenada horizontal es la marca de la clase y cuya coordenada vertical es la frecuencia de la clase.


El polígono de frecuencias se obtiene al unir por segmentos de recta estos puntos. La siguiente figura muestra un polígono de frecuencia al caso del examen de física antes citado.

Polígono de frecuencias



Las distribuciones categóricas pueden también presentarse gráficamente por medio de diagramascirculares o diagramas de pie (de “pay” o de pastel), donde las categorías son representadas como sectores o rebanadas proporcionales al tamaño de las categorías. Para elaborar un diagrama circular es conveniente convertir primero la distribución a una distribución porcentual.

Para ejemplificar el uso de estos diagramas circulares consideramos la distribución del personal ocupado por la industria maquiladora en México en el año de 1995.

Comno un círculo completo corresponde a 360 grados, obtenemos la amplitud de cada sector multiplicando los porcentajes por 3.6 . Por ejemplo , para las mujeres obreras tendriamos un sector de 48.22 x 3.6 =173.592 grados. Puesto que en el diagrama  circular no distinguimos a simple vista si el sector tiene 173.59 o 174 grados , a las mujeres obreras les asignamos un sector de 174 grados, y para los obreros hombres su sector correspondiente tendra 33.63 x  3.6 = 121 grados.

Diagrama circular

Los métodos gráficos son sumamente útiles paraproporcionar una descripción  genenral de datos, confirmando el dicho de que una figura dice mucho más que mil palabras.

Por último quisiera hacer enfasis en el hecho de que si bien para realizar una gráfica o diagrama circular es muy conveniente convertir la distribución de frecuencias que estamos manejando en una distribución porcentual esto no es forzoso, lo importante es que a la hora de realizar la gráfica establescamos una equivalencia entre el total de la población y los 360° del círculo , obteniendo cuantos grados le corresponden a cada elemento mediante una regla de 3.


domingo, 19 de febrero de 2012

0024.-Introducción a la estadística

Retomo el blog, que ya lo tenía abandonado desde el 2009, sin embargo el primer dilema al que me enfrento es sobre la naturaleza del material a postear a continuación, ¿algebra, geometría o aritmética? ¿Del tipo de olimpiadas de matemáticas o de otro tipo? Material de nivel de secundaria, bachillerato, o incluso empezar con algunos apuntes universitarios de cálculo? Mientras resuelvo ese dilema posteare algunos apuntes de estadística básica.



Introducción a la estadística
La palabra estadística tiene fundamentalmente dos significados. El primero de ellos se refiere a datos clasificados, especialmente numéricos, acerca de una clase de objetos. Así, se habla de estadísticas de accidentes, estadísticas de salud, de natalidad, de deportes, etc. En un segundo significicado, se llama estadística a la ciencia que trata de la recolección, análisis, interpretación y representación de datos numéricos.

La estadística tiene su origen en dos áreas de interés que en apariencia tienen muy poco en común: la ciencia política y los juegos de azar.

Los gobiernos han tenido interés desde la antigüedad en contar las personas, sus propiedades y en especial los impuestos que recaudaban o podían recaudar. Ya en el Antiguo Testamento se mencionaron censos de carácter militar, mientras que en Babilonia, China y Egipto y Roma se elaboraron censos con propósitos fiscales. El primer censo del que se tiene noticia en México data del año 1116, cuando el rey chichimeca Xólotl ordenó que fueran censados todos sus súbditos. Para contarlos ,cada uno tiró una piedra en un montón llamado nepohualco (contadero). Se formaron así doce montones de piedras y, de acuerdo con los códices, el resultado arrojo la cifra de 3 200 000 personas. Durante la Colonia se levantaron varios censos de población y recuentos demográficos de los que no se tienen datos. Pero en 1790 el virrey Revillagigedo ordenó el trabajo más amplio estadístico más completo de la Colonia, del que se conservan 40 tomos en el Archivo General de la Nación. Desde fines del siglo XIX , salvo en la época de la revolución mexicana, se han conducido Censos Generales de Población y Vivienda Cada 10 años. Es a través de su lectura que vemos cómo ha evolucionado la sociedad mexicana a lo largo del tiempo. Los problemas asociados a la descripción, resumen y análisis de los datos de los censos ha dado lugar al desarrollo de métodos que constituyen una de las partes de la estadística que más ha sido estudiada, la estadística descriptiva.

Aun cuando la estadística descriptiva es muy importante y se emplea ampliamente la mayoría de la información estadística proviene de observaciones efectuadas a una pequeña proporción del conjunto total. Como resultado de esto, la estadística inferencial ha desarrollado técnicas que permiten hacer predicciones a partir de datos conocidos, o bien obtener información acerca de una población conociendo únicamente a algunos representantes de ella. (Definimos pues a a la estadística inferencial como la parte de la estadística que comprende los métodos y procedimientos para deducir propiedades de una población, a partir de una pequeña parte de la misma.) Con los métodos de la estadística inferencial es posible, por ejemplo predecir los resultados de una elección (con base en la opinión previa de algunos ciudadanos), estimar la vida media de un circuito electrónico (con base en el desempeño que han tenido algunos circuitos semejantes), comparar la efectividad de dos dietas para reducir de peso (con base en la pérdida de peso que han tenido algunas personas que se han sometido estas dietas), determinar cuál es la dosis adecuada de cierto medicamento (con base en estudios realizados con enfermos voluntarios), o bien predecir el flujo de vehículos en una autopista que se va a construir (con base en el tráfico que tienen carreteras alternativas en uso).

En cada una de las situaciones arriba mencionadas hay incertidumbre en las respuestas que es posible darle a cada una. Esto se debe a que la información con que se cuenta es indirecta, parcial o incompleta, y es con el uso de los métodos de la estadística inferencial que podemos juzgar la confiabilidad del circuito electrónico, la eficiencia de cada una de las dieta, el beneficio y contraindicaciones de un medicamento, asi como la necesidad de construir la autopista, o bien de emplear estos recursos en alguna otra obra de mayor interés para la comunidad.

Las técnicas de la estadística inferencial tienen su origen en la teoría de juegos de azar. Sólo que en el contexto de la estadística en general no hablamos de águila o sol, o de pares o tercia, sino de situaciones diversas como de niño o niña sanar o morir, funcionar o fallar, fumar causa cáncer o si cierto candidato será próximo presidente municipal. Para analizar este tipo de situaciones necesitaremos de la teoría de probabilidad, que es el fundamento de la estadística inferencial.

El empleo de la estadística tanto en la vida profesional como en multitud de aspectos de la vida profesional ha aumentado considerablemente en las últimas décadas. Esto se debe, por un lado, a la necesidad de aplicar métodos cuantitativos en muchas áreas del quehacer humano, tales como la administración de empresas, las finanzas, la medicina, la sicología , la producción la contaminación ambiental, la política, etc. Por otro lado , la tecnología computacional ha avanzado considerablemente y hoy en día es posible manipular datos de manera sencilla y eficiente con el uso de paquetes estadístico o de una hoja de cálculo en una computadora personal.

Debemos enfrentarnos todos los días a situaciones donde la estadística y la probabilidad juegan un papel importante. Es indispensable contar con conocimientos de estadística y probabilidad para entender la variabilidad y la incertidumbre en una encuesta de intención de voto antes de unas elecciones, en un reporte médico donde se correlaciona cierta enfermedad con cierto hábitos, o bien , en la calidad de un lote de artículos dónde se analizó una pequeña muestra.

Tengo la certeza de que los siguientes apuntes te brindaran una herramienta poderosa y sencilla que te permitirá tomar decisiones racionales en la vida profesional y te permitirá ser capaz de juzgar críticamente la información estadística que a diario es colectada, procesada y difundida al publico.