Estarás de acuerdo que una de las habilidades más destacadas en ciencia de datos es la capacidad de predecir series temporales de valores. Predecir el valor futuro de algo contribuye a tomar mejores decisiones. Por lo tanto, es crucial estar seguro de que dicha predicción sea de confianza. La elección, construcción e interpretación de las métricas de evaluación de rendimiento para las predicciones realizadas son tan importantes como hacer las propias predicciones.
*Esta publicación es una adaptación al español de la publicación Forecast evaluation statistics with examples in Python original del blog https://towardsdatascience.com/. Agradezco muchísimo al autor su labor al escribirla y al blog el mantenerla publicada, así como el poderla tomar prestada para publicarla aquí.
¿Cómo elegir métricas de evaluación del rendimiento?
La elección de una métrica de evaluación del rendimiento a menudo depende del dominio del problema. En el mundo empresarial, se suele dar la situación en la que una métrica elegida apresuradamente causa la insatisfacción del cliente con los resultados de la predicción optimizados para KPIs inconsistentes con el caso de negocio específico. Por ejemplo, el modelo puede tener un error cuadrático medio bajo, pero al mismo tiempo no predecir bien desviaciones repentinas de los valores o cambios de tendencia.
En este artículo, mostraremos las principales métricas de evaluación de predicciones que se pueden usar para crear y probar modelos predictivos de valores numéricos:
- Error medio (ME – Mean Error)
- Error absoluto medio (MAE – Mean Absolute Error )
- Error cuadrático medio (MSE – Mean Square Error)
- La raíz del error cuadrático medio (RMSE – Root Mean Square Error)
- Error porcentual medio (MPE – Mean Percentage Error )
- Error porcentual absoluto medio (MAPE – Mean Absolute Percentage Error)
- Métricas o coeficientes U de Theil
Nos referimos a «error» a la incertidumbre en la predicción, o, en otras palabras, la diferencia entre el valor predicho (yᵢ) y el valor real (fᵢ), donde el subíndice i denota una observación concreta. El error (yᵢ – fᵢ) es el componente básico en la mayoría de las fórmulas que se presentarán.
Seguidamente, calcularemos e interpretaremos estas métricas para un ejemplo concreto de predicción de series temporales.
¿Por qué?
Imagina que trabajas para una empresa de generación de electricidad. Tu tarea es crear un modelo que prediga la producción diaria de electricidad en un pequeño parque eólico. Esto permitirá planificar y reducir la producción de electricidad en una central eléctrica convencional en momentos de alta eficiencia a partir de fuentes renovables. Supongamos que ya has creado un par de modelos de predicción. ¿Cómo podemos elegir el mejor modelo para dicho propósito?
Métricas de evaluación de predicciones
Error medio (ME – Mean Error)
El error medio (ME) es el promedio de todos los errores de un conjunto de observaciones.
Esta es una métrica muy simple. Desafortunadamente está sesgada debido al efecto de compensación de errores de predicción positivos y negativos, que pueden ocultar la imprecisión de la predicción para observaciones concretas. Debido a eso, el ME no es muy útil para la evaluación del modelo. Sin embargo, es muy fácil de entender (esto no siempre es una ventaja debido a las limitaciones descritas). El ME puede mostrar rápidamente la simetría de la distribución de errores, lo que puede ser útil para evaluar un modelo específico.
Error absoluto medio (MAE – Mean Absolute Error)
La solución más sencilla para la inexactitud del error medio es el uso del error absoluto medio (MAE).
El MAE utiliza los valores absolutos de los errores en los cálculos, lo que arregla el problema de la cancelación de errores con signos opuestos. Nos da un promedio de la magnitud absoluta de todos los valores de los errores, sin importar si eran positivos o negativos.
Error cuadrático medio (MSE – Mean Square Error)
Al igual que el MAE, el error cuadrático medio (MSE) también arregla el problema de la cancelación de errores positivos y negativos.
Sin embargo, otorga una mayor penalización en los errores de predicción grandes que el MAE.
La raíz del error cuadrático medio (RMSE – Root Mean Square Error)
La raíz del error cuadrático medio (RMSE) es lo que en estadística se conoce como desviación estándar de los errores.
El RMSE comparte las ventajas del MSE y se utiliza comúnmente en la predicción y análisis de las regresiones para verificar resultados experimentales. Además, tiene la ventaja de tener las mismas unidades que la variable predicha, por lo que es más fácil de interpretar directamente.
Error porcentual medio (MPE – Mean Percentage Error)
El error porcentual medio (MPE) es el promedio de errores porcentuales por los que cada previsión difiere de sus correspondientes valores reales observados.
Esta métrica es fácil de entender porque proporciona el error en términos de porcentajes. Al igual que en el ME, los errores de previsión positivos y negativos pueden compensarse entre sí, por lo que se puede utilizar para medir el sesgo en las previsiones. La desventaja de esta estadística es que no es adecuada para conjuntos de datos que contienen valores observados iguales a cero (pues estos están en el denominador de todos los elementos del sumatorio y un valor nulo implicaría un MPE indefinido arbitrariamente grande).
Error porcentual absoluto medio (MAPE – Mean Absolute Percentage Error)
El error porcentual absoluto medio (MAPE) arregla el problema con la compensación de errores (tal y como lo hacía el MAE) y funciona mejor si no hay extremos en los datos (y no hay ceros).
Métricas o coeficientes de precisión U de Theil
Hay cierta confusión sobre el coeficiente de precisión de Theil, causado probablemente por el propio Theil, pues propuso dos fórmulas diferentes en diferentes momentos con el mismo nombre.
En el primer coeficiente U1 los valores están en el rango (0, 1).
Cuanto mayor sea la precisión de la predicción, menor será el valor del coeficiente.
En el segundo coeficiente U2 se indica cuánto más (o menos) preciso es un modelo en relación con una predicción trivial.
Al igual que U1, U2 tiene un límite inferior de 0 (que indica una predicción perfecta), sin embargo no tiene un límite superior. Cuando su valor supera 1, significa que la predicción es incluso peor que la predicción trivial.
Coeficiente U2 | Interpretación |
<1 | La predicción es mejor que la de un modelo trivial. |
=1 | La predicción es igual que la de un modelo trivial. |
>1 | La predicción es peor que la de un modelo trivial. |
Evaluación del modelo
A continuación, vamos a calcular todas estas métricas en un conjunto de observaciones tomadas durante 2 meses (enlace a los datos) en las que tenemos predicciones hechas con 4 modelos distintos (cada uno con un nivel de sofisticación ligeramente superior):
- Modelo trivial: El valor de la predicción en un día concreto es igual al valor real del día anterior.
- Modelo de media móvil: El valor de la predicción en un día concreto es el promedio de los valores reales de los últimos 4 días.
- Modelo avanzado 1: Es un modelo ligeramente más sofisticado que los anteriores.
- Modelo avanzado 2: Es el modelo más sofisticado de los 4.
Seguidamente, mostramos un par de gráficos representando tanto el conjunto de datos de la serie temporal real en azul como la predicción de los 4 modelos mencionados en naranja o verdes:
La tabla siguiente contiene el valor calculado de todas las métricas descritas en este artículo para la predicción de cada uno de los 4 modelo expuestos:
En primer lugar, vale la pena señalar que el modelo avanzado 1 no es mucho mejor que el modelo de media móvil en términos de U2. Sin embargo, el error medio (ME) del modelo de media móvil está mucho más lejos de cero, lo que sugiere un sesgo en la predicción.
En segundo lugar, cabe destacar que el modelo avanzado 2 tiene un error cuadrático medio (MSE) un orden de magnitud más pequeño que cualquier otro. También es sustancialmente superior en el resto de las métricas de rendimiento.
Conclusiones
Si el principal indicador de éxito en la predicción es la capacidad del modelo para informar sobre cambios repentinos en la variable predicha, entonces el modelo avanzado 2 es claramente el mejor modelo. Esto es consistente con la intuición y la evaluación visual de las correspondientes series temporales en los gráficos. Sin embargo, este modelo es el más complejo en términos de cálculo y requiere el uso de variables externas. Pero en un ámbito tan importante como el de la generación de electricidad, este es un costo totalmente aceptable.
Por otro lado, el modelo avanzado 1 y el de media móvil, son adecuados para estimaciones aproximadas. Las conclusiones anteriores serían imposibles de extraer sin examinar todas las métricas presentadas, lo que demuestra que ninguna métrica es redundante, ya que cada una tiene información complementaria.