sábado, agosto 21, 2010

DESCRIPCIÓN NUMÉRICA DE DATOS

DATOS Y POBLACIONES

El dato es la unidad de información que se utiliza en la terminología estadística, los datos se refieren a los individuos que se van a describir. Estos individuos o sujetos del análisis pueden ser personas, animales o cosas, los datos se ordenan en una tabla de datos.

La lista siguiente representa el puntaje obtenido por 74 estudiantes (población) en un juego que consiste en responder correctamente el máximo número de preguntas de un total de diez y en donde cada una de ellas vale un punto.

2,3,6,7,8,3,8,9,7,8,8,9,3,5,3,5,0,3,7,5,6,6,5,6,7,6,5,5,5,6,7,8,5,5,6,5,6
6,7,8,9,4,5,6,6,7,7,8,4,8,4,3,4,4,5,5,6,6,7,4,4,5,8,9,10,3,4,6,5,7,3,4,6,5

Esta lista proporciona poca información. Es necesario organizar estos "datos" para que pueda expresar algún tipo de resultado. Un primer paso consiste en su agrupación de manera que se pueda simplificar la información, se realiza un conteo de los datos que son iguales calculando así la frecuencia absoluta y relativa, de esta manera se construye la siguiente tabla de datos:


Puntos Frecuencia Absoluta Frecuencia Relativa
0 1 0,0135
2 1 0,0135
3 8 0,1081
4 9 0,1216
5 16 0,2162
6 15 0,2027
7 10 0,1351
8 9 0,1216
9 4 0,054
10 1 0,0135


VARIABLES CUANTITATIVAS CONTINUAS Y DISCRETAS

Una variable es cualquier característica que varía con los miembros de la población (puntaje obtenido en el juego), esto es, que puede tomar valores diferentes para los individuos de la población. Si la característica se puede medir y expresar por una cantidad numérica, es una variable cuantitativa. Cuando la variable toma los valores en un intervalo, la variable es continua, por ejemplo, el peso, la altura o el tiempo. Y cuando toma los valores en el conjunto de números naturales, la variable es discreta, por ejemplo, el numero de hermanos, goles, entre otros.

VARIABLES CUALITATIVAS

Hay características de interés que no pueden medirse ni expresarse numéricamente y sólo es posible clasificar a los individuos de la población en grupos o categorías. Por ejemplo, los datos sobre el sexo, el color de los ojos, la música preferida.

MEDIDAS DE POSICIÓN

Una breve descripción de la distribución de una variable debe incluir, su "forma" aproximada (mas o menos simétrica), algún número que indique su "centro" u otros que indiquen su "dispersión". Las principales medidas "centrales" de una variable cuantitativa se presentan a continuación, es importante señalar que la interpretación correcta de este tipo de medidas sólo puede hacerse en el contexto de los datos, es decir, el significado de estas medidas depende del significado de los datos.
  • LA MEDIA: Se obtiene sumando todos los datos y dividiendo por el número total de ellos. A partir de una tabla de frecuencias se puede simplificar un poco el proceso sumando los productos de cada dato por su frecuencia.
  • LA MEDIANA: De un conjunto de datos es un dato "central" de la distribución es un número que la divide en dos "mitades" exactamente iguales, para obtener la mediana de un conjunto formado por N datos, se ordenan los datos de menor a mayor; si N es impar, tomar como mediana el dato central, el que está en la posición (N+1)/2; si N es par tomar como mediana la media aritmética de los datos centrales, los que están en las posiciones N/2 y siguiente N/2+1
  • LA MODA: Es el dato más frecuente de la distribución de frecuencias, es una medida que tiene interés en los casos en que la característica de la población es precisamente la mayor ocurrencia de un determinado fenómeno

MEDIDAS DE DISPERSIÓN

Las medidas de posición central de un conjunto de datos por sí solas pueden ser confusas, ya que valores extremos de la distribución pueden introducir variaciones que hagan poco representativo o incluso inválido el análisis de datos que se pretende realizar. La variación proporcionada por estas medidas se completa  al identificar las medidas de dispersión o variabilidad de los datos. Las medidas de dispersión son:
  • RANGO: Es la diferencia entre el mayor y el menor de los datos, en el censo o muestreo.
  • DESVIACIÓN (D): La desviación de un dato X con respecto al promedio Xp, es la diferencia entre estos: D=(X-Xp). El signo se tiene en cuenta
  • DESVIACIÓN MEDIA (Dm): Es el promedio de las desviaciones (en su valor absoluto) de cada uno de los datos del censo o muestreo
  • VARIANZA: Es el promedio de los productos entre las Desviaciones al cuadrado y sus frecuencias absolutas, de cada uno de los datos del censo o muestreo.
  • DESVIACIÓN ESTÁNDAR: Es la raíz cuadrada positiva de la varianza.


No hay comentarios:

Publicar un comentario