Práctica 2

ESTADÍSTICA DESCRIPTIVA: REPRESENTACIONES GRÁFICAS

Objetivos

  • Calcular medidas de posición, de dispersión y de forma de un conjunto de datos
  • Obtener representaciones gráficas que resuman desde el punto de vista estadístico un conjunto de datos
  • Detectar valores fuera de rango en un conjunto de datos.

Estadísticos descriptivos con R-Commander

Los estadísticos descriptivos con R-Commander se obtienen seleccionando Estadísticos/Resúmenes.

14Figura 1: Estadísticos/Resúmenes

La salida presenta diversas opciones: Conjunto de datos activo, Resúmenes numéricos, Distribución de frecuencias,………

Para poder ejecutar alguna de estas opciones es necesario que haya un conjunto de datos activo.

Medidas de Posición, Dispersión y Forma

Para calcular las características de posición, dispersión y forma, debe haber un conjunto de datos activo. Lo primero que debemos hacer, si no hay un conjunto de datos activo, es cargar los datos que vamos a utilizar.

Vamos a calcular características  de posición, dispersión y forma más comunes, (media, mediana, percentiles, desviación típica y coeficiente de asimetría y curtosis), mediante el siguiente ejemplo

Ejemplo

En la siguiente tabla se recogen 29 datos sobre el peso, altura, velocidad y color

misdatosTabla1. Datos del ejemplo 1

Los datos del ejemplo están en el fichero misdatos.txt.  Para importar los datos con R-Commander, seleccionamos: Datos/ Importar datos/ desde archivo de texto, portapapeles o URL…. En la ventana resultante añadimos el nombre del fichero: misdatos y pulsamos Aceptar. Se muestra la siguiente salida

15Figura 2: Importar archivo misdatos.txt

  • Conjunto de datos activo: Seleccionando Estadísticos/Resúmenes/ Conjunto de datos activos obtenemos un resumen de los estadísticos descriptivos elementales de todas las variables del conjunto de datos activo. Se muestra la siguiente salida

16Figura 3: Summary (misdatos)

De cada variable se muestra el valor mínimo, el máximo, el primer, segundo, tercer cuartil y la media. Observemos la sintaxis del comando

> summary (misdatos)

  • Resúmenes Numéricos: Seleccionando Estadísticos/Resúmenes/ Resúmenes numéricos se muestra la siguiente pantalla

17Figura 4: Resúmenes numéricos

Esta salida tiene dos opciones: Datos y Estadísticos.

1. Datos: En esta ventana tenemos que elegir una o varias variables del conjunto de datos (elegimos por ejemplo, altura).

  • Si pulsamos Aceptar la salida presenta un resumen con los principales estadísticos descriptivos.
  • Si pulsamos Aplicar, además de presentar el resumen con los principales estadísticos permanece en la ventana de Resúmenes numéricos (Figura 4) esperando una nueva instrucción.

Por defecto calculará la media, desviación típica y los cuantiles de la variable seleccionada

18Figura 5: Resúmenes numéricos de la variable Altura

Observemos las librerias utilizadas y la sintaxis del comando

> library(abind, pos=14)
> library(e1071, pos=15)
> numSummary(misdatos[,”altura”], statistics=c(“mean”, “sd”, “IQR”, “quantiles”),  quantiles=c(0,.25,.5,.75,1))

2. Estadísticos: Si en la pantalla de la Figura 4 pulsamos estadísticos se muestra la siguiente pantalla

19Figura 6: Resúmenes numéricos/Estadísticos

Elegimos todos los estadísticos y se muestra la siguiente salida

20Figura 7: Estadísticos descriptivos de la variable Altura

En el apartado Apuntamiento se muestran tres tipos algoritmos para calcular la curtosis (Para ver que hace esta función en cada uno de ellos ponemos en la consola  de R ?kurtosis).

> ?kurtosis
y se muestra la siguiente descripción

21Figura 8: Tres tipos algoritmos para calcular la curtosis

3. Resúmenes por grupos: Seleccionando Estadísticos/Resúmenes/ Resúmenes numéricos se obtienen los estadísticos descriptivos desglosados por grupos. En la ventana resultante pulsamos Resumir por grupos… y se muestra la siguiente salida

24Figura 9: Estadísticos descriptivos por grupo

Muestra la variable color, que es la única variable cualitativa en el fichero de datos, pulsamos Aceptar y se muestra la siguiente pantalla

25Figura 10: Estadísticos descriptivos agrupados

En esta ventana tenemos que elegir una o varias variables del conjunto de datos (elegimos por ejemplo, altura) y pulsamos Aceptar

26Figura 11: Estadísticos descriptivos agrupados por color

4. Tablas estadísticas: Seleccionamos Estadísticos/Resúmenes/Tablas estadísticas…

32Figura 12: Tablas estadísticas

Seleccionamos los factores y todas las variables y pulsamos Aceptar

33Figura 13: Tablas estadísticas de las variables del fichero misdatos

Distribuciones de Frecuencias

Para obtener la distribución de frecuencias de una o varias variables de un conjunto de datos, seleccionamos Estadísticos/Resúmenes/ Distribución de frecuencias y se muestra la siguiente pantalla

22Figura 14: Distribución de frecuencias

R-Commander sólo realiza tablas de frecuencias para las variables discretas que se han definido como factores y para las variables cualitativas. En este caso sólo se muestra la variable color.

Si marcamos la variable color y pulsamos Aceptar. Se muestra la siguiente salida, 

23Figura 15: Distribución de frecuencias de la variable color

Counts muestra la frecuencia absoluta y Percentages muestra la frecuencia relativa de cada una de las variedades del color.

Representaciones gráficas en R-Commander

R-Commander ofrece una gran variedad de gráfico. Atendiendo al tipo de datos vamos a utilizar varios tipos de gráficos.

    • Variables cualitativas o variables cuantitativas de tipo discreto: Se pueden considerar gráficos de sectores o gráficos de barras
    • Variables cuantitativas: Los gráficos que se suelen emplear con más frecuencia son el histograma, el diagrama de tallos y hojas y el diagrama de caja y bigotes.

En primer lugar realizaremos las representaciones gráficas para las variables cualitativas (Diagrama de barras y gráfico de sectores) y a continuación las representaciones gráficas de las variables cuantitativas (Histograma, diagrama de tallos y hojas y diagrama de cajas y bigotes)

Diagrama de Barras y Diagrama de Sectores

Diagrama de barras

Seleccionamos Gráficas/ Gráfica de barras y se muestra la siguiente pantalla

27Figura 16: Gráfica de barras

En la ventana Variable (elegir una), sólo está la variable color que es la única variable cualitativa del archivo de datos. Se elige color y  pulsa Aceptar

28Figura 17: Gráfica de barras de la variable color

 Si en la pantalla de la Figura 16 pulsamos Opciones, se muestra la siguiente pantalla

29Figura 18: Gráfica de barras: Opciones

En esta pantalla se pueden poner las etiquetas de los ejes, título para el gráfico, posición del texto…..

Gráfico de sectores

Seleccionamos Gráficas/ Gráfica de sectores

30Figura 19: Gráfica de sectores

En la parte Dibujar etiquetas hemos dejado los valores por defecto, pero podríamos modificarlos. Pulsamos Aceptar

31Figura 20: Gráfica de sectores: Variable color

En el que vemos la distribución que tienen cada una de las categorías de la variable color, siendo la categoría Verde la que tiene un mayor porcentaje.

Histograma

Seleccionamos: Gráficas/Histograma

34Figura 21: Histograma: Datos

Esta ventana, como en las anteriores, muestra dos submenús: Datos y Opciones.

Datos: En este submenú podemos ver las distintas variables de nuestro conjunto de datos (Figura 21)

Opciones:

    • Opciones gráfica: Número de intervalos/clases del histograma
    • Escala de los ejes: Se puede elegir entre frecuencias, porcentajes o densidades
    • Dibujar etiquetas: En esta opción se puede poner nombre al eje x, al eje y, y al título del gráfico.

35Figura 22: Histograma. Opciones

Elegimos la variable altura y dejamos todas las opciones por defecto

36Figura 23: Histograma. Variable: Altura

Gráfico de tallos y hojas

Se selecciona Gráficas/Gráfica de tallos y hojas

37Figura 24: Gráfica de tallos y hojas

Seleccionamos la variable altura, dejamos todas las demas opciones por defecto y pulsamos Aceptar. Se muestra la siguiente salida

38Figura 25: Gráfica de tallos y hojas. (Variable Altura)

Diagrama de cajas

Seleccionamos Gráficas/Diagrama de Caja

39Figura 26: Diagrama de caja

La ventana muestra dos submenús: Datos y Opciones.

Datos: En este submenú podemos ver las distintas variables del conjunto de datos.

Opciones:

  • Identificar atípicos: Da la opción de mostrarlos automáticamente, cuando pase el ratón por encima o no mostrarlos
  • Dibujar etiquetas: En esta opción podemos poner nombre al eje x, al eje y, y al título del gráfico.

12

Figura 27: Diagrama de caja: Opciones

Si seleccionamos la variable altura y dejamos todo lo demás por defecto, muestra el siguiente gráfico

40Figura 28: Diagrama de caja (Variable Altura)

En este gráfico podemos apreciar dos valores atípicos, los puntos 26 y 1.

Si pulsamos,en la salida de la figura 26, Gráfica por grupos…

42Figura 29: Diagrama de caja por grupos

Seleccionamos color, pulsamos Aceptar se muestra el siguiente diagrama de cajas con bigotes

41Figura 30: Diagrama de caja por grupos (Variable Altura)




Ejercicios

Ejercicios Guiados

Ejercicio guiado

Considérese el siguiente conjunto de datos que contiene información acerca del sexo, la edad, el peso y la altura de 30 personas:

43Tabla2. Datos del Ejercicio Guiado 1

Se pide:

a) Elabora un fichero de texto que contengan la información de la tabla anterior. Utiliza el tabulador para separar la información referente a cada variable. Guárdalos en el escritorio y nombralos ejerguiado.txt e impórtalos

b) Calcula la edad media de los individuos de la muestra y su mediana. ¿Es homogénea la variable edad? ¿Y simétrica?

c) Calcula el porcentaje de hombres y mujeres que hay en la muestra y haz un gráfico de sectores con el título “Gráfico de sectores para la variable sexo”

d) Realiza un diagrama de barras de la variable sexo

e) Realiza un histograma con la variable altura y añades los títulos a los ejes

f) ¿Existen valores atípicos en alguna de las variables?


Ejercicio Guiado (Resuelto)

a) Elabora un fichero de texto que contengan la información de la tabla anterior. Utiliza el tabulador para separar la información referente a cada variable. Guárdalos en el escritorio,  nombralos ejerguiado.txt e impórtalos

Una vez creado el fichero de datos vamos a importarlos, para ello seleccionamos Datos/ Importar datos/ desde archivo de texto, portapapeles o URL…. En la ventana resultante añadimos el nombre del fichero: Ejerguiado

67Figura 31: Importar archivo de texto

Pulsamos Aceptar. Se muestra la siguiente salida

45Figura 32: Archivo de texto activo

b) Calcula la edad media de los individuos de la muestra y su mediana. Proporciona, al menos, dos medidas que indiquen la dispersión de esta variable. Estudia la asimetría y la curtosis de la variable edad

Para calcular la media y la mediana, seleccionamos  Estadísticos/ Resúmenes/Conjunto de datos activo y se muestra la siguiente salida

46Figura 33: Resúmenes numéricos

La edad media y mediana son respectivamente, 37.27 y 36

Como medidas de dispersión, se van a calcular la desviación típica y el recorrido intercuartílico, para ello, seleccionamos Estadísticos/ Resúmenes/Resúmenes numéricos

En la ventana datos, seleccionamos la variable edad

48Figura 34: Resúmenes numéricos: Datos

En la ventana estadísticos, seleccionamos todos los estadísticos

49Figura 35: Resúmenes numéricos: Estadísticos

50Figura 36: Resúmenes numéricos: (Variable Edad)

Desviación típica = 9.544

Recorrido intercuartílico = 14

Coeficiente de asimetría = 0.4777. La distribución de la variable edad es asimétrica positiva.

Coeficiente de curtosis = -0.3113. La distribución de la variable edad es menos apuntada que la distribución Normal. Es decir, es una distribución platicúrtica.

c) Calcula el porcentaje de hombres y mujeres que hay en la muestra y haz un gráfico de sectores con el título “Gráfico de sectores para la variable sexo”

Para obtener la distribución de frecuencias de una o varias variables de un conjunto de datos, seleccionamos Estadísticos/Resúmenes/Distribución de frecuencias

51Figura 37: Distribución de frecuencias (Variable: Sexo)

La pantalla sólo muestra la variable sexo, ya que la distribución de frecuencias sólo tiene sentido en las variables cualitativas.

52Figura 38: Porcentajes de hombres y mujeres

El porcentaje de hombres es 36.67 y el de mujeres 63.33
Para obtener el gráfico de sectores seleccionamos Gráficas/Gráfica de sectores

53Figura 39: Gráfico de sectores

 

54Figura 40: Gráfico de sectores (Variable: sexo)

d) Realiza un diagrama de barras de la variable sexo

Seleccionamos Gráficas/Gráfica de barras

55Figura 41: Gráfico de barras

Pulsar Aceptar

56Figura 42: Gráfico de barras (Variable: sexo)

e) Realiza un histograma con la variable altura y añades los títulos a los ejes

Seleccionamos Gráficas/ Histograma

84Figura 43: Histograma

85Figura 44: Histograma. Opciones

86Figura 45: Histograma. (Variable: Altura)

f)  ¿Existen valores atípicos en alguna de las variables?

Para comprobar si hay valores atípicos en la distribución de la variable Altura realizamos un gráfico de cajas con bigotes, para ello seleccionamos Gráficas/Diagrama de Caja

57Figura 46: Diagrama de cajas

Podemos realizar el gráfico de cajas para la variable altura, sin tener cuenta los grupos (Opción por defecto) o teniendo encuenta los grupos, para ello seleccionamos Gráfica por grupos…

59Figura 47: Diagrama de cajas (Variable por grupo)

58      60

Figura 48: Diagrama de cajas (Variable: Altura)

 62      63

Figura 49: Diagrama de cajas (Variable: Edad)

65     64

Figura 50: Diagrama de cajas (Variable: Peso)

Los valores atípicos son: El punto 4 en la variable Edad (Hombre). El punto 28 en la variable Peso y ese punto corresponde a la mujer.



Ejercicios Propuestos

Ejercicio Propuesto

Las siguientes tablas recogen información sobre el diámetro, la altura, el volumen del tronco y la variedad de distintos cerezos en dos regiones distintas:

datos_propuesto1Tabla3. Datos del Ejercicio Propuesto 1

Se pide:

a) Elabora dos ficheros de texto que contengan la información de la tabla anterior. Utiliza el tabulador para separar la información referente a cada variable. Guárdalos en el escritorio y llámalos PropuestoRegA.txt y PropuestoRegB.txt e impórtalos

b) Calcula el diámetro medio de los datos en la Región A y su mediana. ¿Es simétrica la distribución de estos datos? ¿Donde es más homogéneo el diámetro en la Región A o en la Región B?

c) Calcula el porcentaje de cada unas de las variedades que hay en la Región A y haz un gráfico de sectores con el título Gráfico de sectores para la variable: Variedad

d) Realiza un histograma con la variable volumen y añades los títulos a los ejes

e) ¿Existen valores atípicos en alguna de las variables?


Ejercicio Propuesto (Resuelto)

a) Elabora dos ficheros de texto que contengan la información de la tabla anterior. Utiliza el tabulador para separar la información referente a cada variable. Guárdalos en el escritorio y llámalos PropuestoRegA.txt y PropuestoRegB.txt e impórtalos

50Figura 51: Importar datos

b) Calcula el diámetro medio de los datos en la Región A y su mediana. ¿Es simétrica la distribución de estos datos? ¿Donde es más homogéneo el diámetro en la Región A o en la Región B?

71Figura 52: Resumen estadístico (Variable: diámetro en la Región A)

La media es 10.905888 y la mediana 11.1

La distribución de los datos de la variable diámetro es asimétrica negativa (-0.6142051)

72Figura 53: Resumen estadístico (Variable: diámetro en la Región B)

Es más homogénea la distribución del diámetro en la Región A ya que el coeficiente de variación de Pearson es menor (CV (Región A) = 0.1201; CV (Región B)=0.1375).

c) Calcula el porcentaje de cada unas de las variedades que hay en la Región A y haz un gráfico de sectores con el título Gráfico de sectores para la variable: Variedad

74Figura 54: Distribución de frecuencias de la variable: Variedad

El porcentaje de la Variedad Amarillo es 29.41, de Blanco 29.41 y de Rosa 41.18.

76Figura 55: Gráfico de sectores para la variable: Variedad

d) Realiza un histograma con la variable volumen y añades los títulos a los ejes

79Figura 56: Histograma (Variable: Volumen)

e) ¿Existen valores atípicos en alguna de las variables?

Valores atípicos hay en las variables Diámetro (los puntos: 1, 3 y 17) y en la variable Volumen (el punto 17)

Solución del Ejercicio Propuesto

Autores: Beatriz Cobo Rodríguez y Ana María Lara Porras. Universidad de Granada. (2016)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *