Como no soy estadista ni matemática ni nada que remotamente se le parezca, a veces se me escapan algunos conceptos y tengo dificultades en la interpretación de gráficos. Navegando un poco por internet suelo encontrar la respuesta que busco, pero mi memoria es efímera y con mucha frecuencia me veo buscando el mismo concepto nuevamente.
Me acaba de ocurrir. Estaba intentando interpretar un ‘Box plot’ cuando apareció la palabra ‘quartile’ (‘cuartil’ en español). Al no recordar el concepto, no era capaz de interpretar el gráfico.
Aquí os dejo mis conclusiones, por si pudieran ayudar a alguien en mi misma situación:
El gráfico pretende ayudarnos a entender cómo afecta la altura de una construcción sobre el consumo de calefacción. En este caso solo tenemos dos tipos de altura: construcciones con 3.5 m y construcciones de 7 m.
Si tomamos la segunda altura (7 m) ¿cómo se distribuye el gasto de calefacción?
Para responder a esta pregunta, el ‘box plot’ juega con los cuartiles, que básicamente viene a significar esto:
Usamos 3 valores de entre todos los que hay en nuestra variable ‘consumo de calefacción’ para dividir el conjunto de datos en cuatro partes iguales.
Imaginemos que la variable ‘consumo de calefacción’ recoge 1000 datos. La distribución de estos datos será de 250 en la primera zona, 250 en la segunda zona, 250 en la tercera zona y 250 en la última zona.
Si nos fijamos en el gráfico, los cuartiles Q1, Q2 y Q3 indican los valores correspondientes al 25%, al 50% y al 75% respectivamente.
Además, el cuartil Q2 se corresponde con la mediana (median value).
Si además, observamos un punto como el situado bajo la caja de la derecha, entonces hemos de interpretarlo como un valor atípico (outlier)
Espero que la idea quede clara… y si algun ‘experto’ encuentra alguna inconveniencia en el post, su aclaración será más que bienvenida.