martes, 21 de febrero de 2012

0024.1 Distribuciones de frecuencia

La institución oficial en México que se encarga de recolectar clasificar y analizar datos es el Instituto Nacional de Estadística, Geografía e Informática (INEGI). Los datos que recolecta el INEGI abarcan multitud de aspectos de la vida social y económica del país . Tomemos por ejemplo los matrimonios que ocurrieron en México durante el año de 1995. En este periodo se efectuaron 658114 matrimonios. Para cada uno de estos matrimonios, el Registro civil guarda un expediente que contiene piezas de información tales como los nombres de los contrayentes, sus fechas de nacimiento, edad, lugar de residencia, nacionalidad, ocupación, escolaridad, et. ¿Cómo podríamos presentar todo este universo de datos e información de manera sencilla? Para difundir los resultados de sus estudios, el INEGI los agrupa y ordena de manera que sea posible obtener una visión global clara sin perder mucha información. Es obvio que debido a la variedad de información que contiene cada expediente, es necesario seleccionar algún aspecto de interés para agrupar y ordenar toda esta información .Esta selección depende indudablemente de los aspectos que deseamos estudiar y analizar toda esta información, Esta selección depende indudablemente de los aspectos que deseamos estudiar y analizar. Un aspecto de interés general es la edad de los contrayentes, mientras que saber cuántos Manueles se casaron con Luceros, o cuántos hombres de signo acuario se casaron con mujeres de signo escorpión evidentemente no lo es.

Con frecuencia agrupamos los datos en cierto número de clases (llamados también intervalos o categorías) como lo muestra la siguiente tabla de matrimonios en México durante 1995.



Una Tabla como esta es llamada una distribución de frecuencias. La mayoría de los intervalos en esta distribución son de cinco años. Observemos que al escoger estas clases la información se simplifica considerablemente; de no ser así, la tabla tendría más de 75 renglones, correspondientes a las edades de las contrayentes. Por supuesto que al hacer esta simplificación se pierde cierta información. Por ejemplo, a partir de la distribución de frecuencia podemos observar que durante 1995 se casaron casi el doble de mujeres entre los 15 y los 19 años que entre los 25 y los 19 años, pero no podemos determinar si hubo más matrimonios de mujeres de 18 años que de mujeres de 26 años.

Con excepción de la primera y la última, las clases están determinadas por una pareja de números , llamados límites de clase. Por ejemplo, los limites de la tercera clase son 20 y 24. De hecho, los valores 15, 20,25,...45 son llamados límites inferiores, mientras que los valores 19, 24, 29,...,49 son los límites superiores. A la diferencia entre el limite superior de una clase y el límite superior de la clase anterior se le conoce como el intervalo de la clase. Por ejemplo el limite superior de la tercera clase es 24 y el limite superior de la segunda es 19 de modo que el intervalo de la clase es 24-19= 5.

Si las clases en que agrupamos los datos son determinadas por intervalos numéricos, como en el caso anterior, decimos que la distribución es numérica o cuantitativa. Cuando los datos no son agrupados en clases numéricas la distribución es categórica o cualitativa , como la siguiente tabla que nos muestra los divorcios ocurridos en el país durante 1995 de acuerdo a sus causas.

El diseño de una distribución de frecuencias depende esencialmente de cómo seleccionamos las clases. Para las distribuciones numéricas esta elección es arbitraria, pero hay algunas reglas generales que es conveniente observar:

1. El Número de clases en general debe ser entre 5 y 15, dependiendo del número de observaciones o datos que debemos agrupar.

Por ejemplo, si se tienen únicamente 8 datos, resultaría absurdo agruparlas en una distribución de 12 clases, donde varias de ellas resultarían vacías. Asimismo perderíamos mucha información si decidiéramos agrupar los 658 114 matrimonios durante 1995 en sólo tres o cuatro clases.

2.- Cada dato debe pertenecer exactamente a una clase.

Esto significa que debemos elegir las clases de tal manera que dos clases no tengan datos en común y que además cualquier dato pertenezca a una clase.

3.-Siempre que sea posible, elegir clases con intervalos numéricos iguales.

La tabla de distribución de matrimonios por edades de la contrayente cumple casi todas estas reglas, a excepción de la última , ya que la primera y la última clase no están determinadas por un intervalo de cinco años. La primera corresponde a matrimonios donde la contrayente es menor de 15 años, mientras que la última corresponde a matrimonios donde la contrayente tiene 50 o más años. A este tipo de clases se les llama abiertas y están definidas por expresiones como “ó mayores”, “mayores que”, “ó menores” o “menores que”. Una regla que siempre hay que considerar es la siguiente: cuando empleamos clases abiertas es deseable, que con el fin de no perder demasiada información, éstas contengan pocos datos en relación con el resto de las clases.

Consideremos ahora los resultados de un examen de física practicado a un grupo de 30 alumnos. La siguiente tabla muestra las calificaciones de este examen.

Como se trata de calificaciones escolares, los maestros usualmente aplican la regla de que de medio punto para arriba la clasificación sube, mientras que debajo de medio punto no sube, por lo que en este caso es razonable agrupar los datos de acuerdo con la calificación que recibirán. Esto nos sugiere que en general la elección de los intervalos de las clases depende del fenómeno que estamos analizando.
La cuarta clase, por ejemplo corresponde a los exámenes que recibirán 7 de calificación en la boleta, esto es, a los exámenes con calificación igual o mayor a 6.5 y menor o igual a 7,4. Así, 6.5 es el limite inferior de esta clase y 7.4 es el límite superior de esta clase. Para la tercer clase, estos límites son 5.5 y 6.4 respectivamente. El intervalo de la cuarta clase es entonces 7.4 – 6.4 = 1, respectivamente. Sin embargo, si los valores numéricos de las calificaciones son más detallados y contienen dos o más decimales, sería necesario cambiar los límites de las clases a 6.5 y 7.49 , o quizás, a 6.5 y 7.499. Para evitar este tipo de antigüedad es conveniente considerar otro concepto análogo a los límites de la clase, el de los valores divisorios o frontera de una clase. Un dato pertenece a la primer clase si su valor es mayor o igual a 3.5 y menor que 4.5, un dato pertenece a la segunda clase si su valor es mayor o igual que 4.5 y menor que 5.5 , etc. En este caso los valores divisorios de las clases son 3.5,4.5,5.5,...9,5,10.

Al promedio entre los valores divisorios de una clase le llamamos la marca de la clase o punto medio de la clase. Por ejemplo , para la cuarta clase sus valores divisorios son 6.5 y 7.5 por lo que su marca o punto medio es (6.5 +7.5) / 2 = 7, que es precisamente la calificación asignada en la boleta para los exámenes que caen en esta clase.

Para el caso de los matrimonios durante 1995, los valores divisorios a partir de la segunda clase son 15, 20,25,etc. Las marcas de clase son entonces (15 +20) / 2 = 17.5. (20+25 )/2 =22.5, etc.

La distribución de frecuencias puede modificarse un poco y presentar los datos de manera porcentual, dividiendo el número de observaciones de cada clase por el total de observaciones y luego multiplicando por 100. Por ejemplo, para la tabla anterior podemos calcular los porcentajes dividiendo los números de la columna derecha por 30 y luego multiplicando por 100. Por ejemplo sabemos que 8 alumnis obtuvieron entre 7.5 y 8.4 en el examen, así que el porcentaje de éstos es de 8/30 x 100 = 26.67.
Los otros porcentajes se obtienen de manera semejante y son mostrados en la siguiente tabla.



¿Por qué la suma de los pórcentajes es un poco mayor que 100? ¿Hay un error en los cálculos? Este fenómeno sucede con frecuencia y se debe a los errores de redondeo por considerar únicamente dos decimales.

Cuando las distribuciones de frecuencia son construidas para describir de manera sencilla grandes cantidades de datos, los histogramas constituyen una forma gráfica de representarlas. Un histograma se construye asignando a las medidas de las clases la escala horizontal y a las frecuencias de cada una de las clases la escala vertical. En general no es conveniente emplear histogramas cuando algunas clases son abiertas  o cuando los intervalos de las clases no son iguales. El siguiente histograma representa los resultados del examen de fisica que hemos analizado previamente.


Aquí es fácil apreciar que la calificación que apareció con mayor frecuencia fue el ocho, ya que la barra asociada al ocho es la más alta, así como que la calificación menos frecuente fue el cuatro, pues su barra señala únicamente una unidad. Existen otras maneras gráficas de presentar datos que se emplean con menos frecuencia que el histograma, como por ejemplo los polígonos de frecuencia. En el caso de los polígonos de frecuencia cada clase se representa por un punto cuya coordenada horizontal es la marca de la clase y cuya coordenada vertical es la frecuencia de la clase.


El polígono de frecuencias se obtiene al unir por segmentos de recta estos puntos. La siguiente figura muestra un polígono de frecuencia al caso del examen de física antes citado.

Polígono de frecuencias



Las distribuciones categóricas pueden también presentarse gráficamente por medio de diagramascirculares o diagramas de pie (de “pay” o de pastel), donde las categorías son representadas como sectores o rebanadas proporcionales al tamaño de las categorías. Para elaborar un diagrama circular es conveniente convertir primero la distribución a una distribución porcentual.

Para ejemplificar el uso de estos diagramas circulares consideramos la distribución del personal ocupado por la industria maquiladora en México en el año de 1995.

Comno un círculo completo corresponde a 360 grados, obtenemos la amplitud de cada sector multiplicando los porcentajes por 3.6 . Por ejemplo , para las mujeres obreras tendriamos un sector de 48.22 x 3.6 =173.592 grados. Puesto que en el diagrama  circular no distinguimos a simple vista si el sector tiene 173.59 o 174 grados , a las mujeres obreras les asignamos un sector de 174 grados, y para los obreros hombres su sector correspondiente tendra 33.63 x  3.6 = 121 grados.

Diagrama circular

Los métodos gráficos son sumamente útiles paraproporcionar una descripción  genenral de datos, confirmando el dicho de que una figura dice mucho más que mil palabras.

Por último quisiera hacer enfasis en el hecho de que si bien para realizar una gráfica o diagrama circular es muy conveniente convertir la distribución de frecuencias que estamos manejando en una distribución porcentual esto no es forzoso, lo importante es que a la hora de realizar la gráfica establescamos una equivalencia entre el total de la población y los 360° del círculo , obteniendo cuantos grados le corresponden a cada elemento mediante una regla de 3.


No hay comentarios: