9. REFERENCIAS

La lista de referencias incluye la bibliografía científica que valida las decisiones metodológicas tomadas, particularmente en el diagnóstico de series intermitentes (Estrategia 1), la justificación de modelos robustos (Estrategia 3) y el manejo de variables categóricas de alta cardinalidad.

Libros, Artículos y Estudios de Caso

Al-Tal, M. et al. (2021). A predictive model for an effective maintenance of hospital critical systems. Proceedings of the 2021 International Conference on Modelling, Measurement and Control (EMSS).

Artefact (s.f.). Nuestro novedoso enfoque: codificación dinámica de características categóricas (Dynamic Categorical Feature Encoding). Documento técnico que describe el uso de modelos como Prophet para extraer tendencias y mitigar el sesgo en la predicción con modelos basados en árboles.

Hyndman, R. J. & Athanasopoulos, G. (s.f.). Artículos sobre descomposición STL y acf12 como indicador de estacionalidad. Referencia bibliográfica que valida el uso de estas técnicas para el análisis de estacionalidad.

Hyndman, R. J. et al. (s.f.). Chapter: Hierarchical or grouped time series forecasting. Trabajos que sostienen que las series con pocos datos o mucha intermitencia se modelan mejor mediante modelos agregados o jerárquicos.

Hyndman, R. J. et al. (s.f.). Large Scale Hierarchical Industrial Demand Time-Series. Trabajo en archivo (arXiv) que aborda el forecasting en jerarquías con series escasas, justificando el uso de reconciliación.

Inxite Out (s.f.). Automated Opex Forecasting For Efficient Financial Planning. Estudio de caso que describe el uso de modelos univariantes clásicos (SARIMA, ETS) como baseline en el pronóstico automatizado de gastos operativos (OpEx).

Prácticas en Contabilidad de Costes y Gestión Financiera de OPEX/FMs (s.f.). Prácticas que justifican el ajuste o limpieza de abonos y valores negativos como paso previo al modelado.

Syntetos, S. A. y Boylan, J. (2005). The Accuracy of Intermittent Demand Estimates. Sādhanā - Academy Proceedings in Engineering Sciences, 30(6), 727–734. DOI: 10.1007/BF02717088.

(Versión disponible en: https://www.ias.ac.in/public/Volumes/sadh/045/00/0051.pdf).

Zhou, G. et al. (2022). Machine learning-based cost predictive model for better LRT OPEX. International Journal of Industrial Engineering: Theory, Applications and Practice.

Tablas de Metodologías y Conceptos recopilados durante el proyecto

Las siguientes tablas se realizaron durante la fase de análisis del proyecto y han servido a los siguientes propósitos:

Decisión de Modelos Champion–Challenger (Estrategia 3): Referencia a estudios recientes sobre ensembles y métodos combinados de pronóstico que superan consistentemente a los modelos individuales en datos ruidosos, como se aplica en la combinación del Top-2 de modelos por serie.
Segmentación por Morfología de la Serie: Uso de las métricas ADI (Average Demand Interval) y CV² (Coefficient of Variation squared) como criterios esenciales para clasificar las series en GENERAL o INTERMITENTE (Estrategia 1 y 3), siguiento la literatura de Syntetos y Boylan.
Gobernanza por MASE: Uso de la métrica MASE12 (Error Escalonado Medio Absoluto con periodicidad 12) como criterio de gobernanza para seleccionar el modelo final (Paso 6), garantizando que el modelo escogido aporte valor medible frente al baseline Naive Estacional.
Conciliación Jerárquica MinT shrink (Pasos 10–12): Utilización de esta técnica avanzada para asegurar la coherencia de las predicciones a través de la jerarquía de agregación, usando el Real 2023 ajustado por IPC como ancla estructural para la versión de producción (Paso 12 ACTIVE).

Estudio / Artículo	Lo que hicieron / contexto	Lo que hallaron / técnicas relevantes	Cómo se puede aplicar a nuestro proyecto
“Automated Opex Forecasting For Efficient Financial Planning” (Inxite Out) https://inxiteout.ai/case-studies/automated-opex-forecasting-for-efficient-financial-planning	Empresa farmacéutica con muchas series de OpEx (15,000+ series, 500 centros de coste) con previsiones a 24 meses.	Usaron modelos univariantes clásicos (SARIMA, ETS) como baseline; luego ML y modelos multivariantes. Hubo mejora al usar modelos automáticos, estandarización de series y preprocesado.	Muy parecida escala (“muchas series”) → es útil para comparar errores de baseline vs ML. También interés en gestión automatizada, como vosotros.
“Machine learning-based cost predictive model for better LRT OPEX” (G. Zhou et al., 2022) https://www.sciencedirect.com/science/article/pii/S1077291X22000315	En transporte ferroviario (“Light Rail Transit”), costos operativos en planificación.	Integraron variables operativas + estructuras de costes, ML para prever OPEX; estudiaron cómo ciertos categóricos mejoran precisión.	Técnica similar: muchos costes operativos vinculados a atributos categóricos del activo. Buena inspiración sobre qué features externas usar.
“Categorical Encoding: A Forecasting-Driven Approach” (Artefact) https://medium.com/artefact-engineering-and-data-science/encoding-categorical-features-in-forecasting-are-we-all-doing-it-wrong-fe8a9a6488da	Proyecto retail, forecasting de ventas con muchas categorías, se dieron cuenta de que los codificadores clásicos de categóricas estaban sesgando los modelos.	Propusieron codificación que considera la tendencia histórica de cada categoría (no solo media estática), lo que ayuda a mejorar precisión y reducir sesgo.	Directa aplicación: para variables como ID_BUILDING, no usar solo codificación estática, sino considerar tendencias específicas del edificio.
“Comparative Study on the Performance of Categorical Variable Encoders…” (W. Zhu et al., 2024) https://arxiv.org/pdf/2401.09682	Compararon 14 codificadores (One-Hot, Target Encoding, Hash, etc.) en muchos datasets de regresión y clasificación.	Hallazgo: para modelos basados en árboles, los Target Encoders y sus variantes (regularizados) funcionaban mejor que OHE cuando la cardinalidad era alta. OHE mejor cuando cardinalidad baja o en modelos lineales.	Muy relevante: para vuestra variable ID_BUILDING la recomendación es clara — usar Target Encoding en modelos basados en árboles. También permite formular una regla: aplicar OHE solo cuando número de clases pequeño.
“A predictive model for an effective maintenance of hospital critical systems” (Al-Tal et al., 2021) https://www.cal-tek.eu/proceedings/i3m/2021/emss/001/pdf.pdf	Predicción de condición de AHU (unidad de HVAC) en un hospital, usando datos de sensores (BMS), sistemas de mantenimiento (CMMS), se combinan SVM + Prophet para mantenimiento.	Aunque el foco no es tanto coste mensual por edificio, sí muestra cómo usar series temporales + ML, cómo estructurar predicción de condiciones que luego se traducen en costes operativos, identificación de señales tempranas.	Útil para pensar en modelos híbridos, cómo traducir condiciones predichas a costes reales, y para inspiración de métricas de mantenimiento.

Estudio	Qué combina	Cómo lo desarrollan / flujo técnico	Lo que lograron / aprendizajes
Time‐Series Forecasting Using Prophet + XGBoost (Order Volumes) — SMS Logistics	Prophet para capturar tendencia y estacionalidad + XGBoost para modelar residuos / patrones no lineales. https://kth.diva-portal.org/smash/get/diva2%3A1982923/FULLTEXT01.pdf	Flujo típico: 1. Limpieza de datos históricos de órdenes (varios años). 2. Primer modelo: Prophet predice valores esperados. 3. Se calcula el residuo = real − predicción Prophet. 4. Se entrena un XGBoost con features como: mes, año, indicador de feriados / eventos especiales, residuo pasado, región, etc., para predecir residuo. 5. La predicción final = Prophet(predicción) + XGBoost(predicción de residuo). 6. Validación out-of-sample, comparando Prophet solo vs híbrido.	Mejoras en wMAPE en todos los periodos de prueba comparado con Prophet solo; sobre todo mejor captura de picos y de efectos de feriados o días especiales. Muestra que la estrategia híbrida capta bien lo que los modelos de tendencia/estacionalidad clásicos dejan como “error”.
Hybrid forecasting of energy / building consumption — SAMFOR (SARIMA + SVR + optimizador Firefly)	Modelo híbrido que mezcla SARIMA (modelo estadístico) + Support Vector Regression (ML) con optimización heurística (algoritmo Firefly) para predecir consumo energético de edificios. https://www.nature.com/articles/s41598-022-19935-6	Flujo: 1. Datos horarios o en intervalos fines de energía. 2. Detección de estacionalidad, temporadas altas/bajas, calendario, datos temporales météo. 3. SARIMA se usa para capturar componente lineal / estacional. 4. SVR para los residuos que SARIMA no explica, ajustando hiperparámetros con algoritmo Firefly. 5. Evaluación de métricas como RMSE, MAPE; comparativa con modelos individuales (solo SARIMA, solo SVR).	El modelo híbrido “SARIMA + SVR optimizado” (SAMFOR) resultó claramente mejor que los sistemas individuales. enseñanza: la combinación de un modelo estadístico + uno ML ayuda mucho cuando los datos tienen estructura clara de estacionalidad y múltiples no linealidades residuales.
Hybrid LSTM-Prophet para consumo de energía / series complejas	Prophet (descomposición de tendencia/estacionalidad) + LSTM para capturar patrones más complejos y no lineales, además efectos residuales. https://peerj.com/articles/cs-1001/	Flujo típico: 1. Preprocesamiento: descomposición (por ejemplo extraer lo estacionario/trend) o dejar Prophet explicar parte del patrón. 2. Entrenamiento de Prophet. 3. Cálculo de residuos. 4. Entrenamiento de LSTM con los residuos como objetivo, con entradas que pueden incluir rezagos del residuo, variables externas (exógenas) si están disponibles. 5. Validación comparativa entre Prophet solo, LSTM solo, híbrido. 6. En algunos casos ponderación o combinación (“ensemble”) de las predicciones.	El híbrido mejora la predicción frente a Prophet solo, especialmente en variaciones abruptas o eventos fuera de lo normal. Da mayor estabilidad, menos error máximo, y mejor captura de fluctuaciones.
“Seasonal-adjusted ML-based hybrid models” (para advertencias de ola de calor)	Combinan descomposición de la serie (STL u otras) + mezcla de modelos: ARIMA / ETS / TBATS etc. para parte lineal/estacional + ML (SVR, LSTM, Random Forest) para patrones residuales / no lineales. https://www.nature.com/articles/s41598-025-93227-7	Flujo: 1. Descomposición de la serie (STL) para separar componentes de tendencia, estacionalidad. 2. Modelos estadísticos sobre esos componentes principales. 3. Residuo = parte que queda sin explicación. 4. ML sobre el residuo; seleccionan entre varios: ANN, LSTM, SVR, etc. 5. Combinación de predicciones: estadístico + ML. 6. Validación con MAE, MAPE, RMSE, etc.	Claramente mejor rendimiento cuando se compara con modelos puramente estadísticos o puramente ML. También importante: seleccionan cuáles variables exógenas ayudan más; hacer “seasonal-adjusted” mejora, especialmente en series con estacionalidad fuerte.

Referencias a Módulos IEBS

Para utilizar adecuadamente cada tecnología anterior nos apoyamos en los módulos, sprints y videos de IEBS dentro de este curso, tales como:
Se debe estar en sesión activa en la plataforma de IEBS para ver adecuadamente el contenido de cada link, por lo que solamente aplica para alumnos de este Máster y profesores de IEBS.

Sistemas y servicios de Almacenamiento

Aprendizaje supervisado II

Entornos Datawarehouse

← Anterior Siguiente →

9. REFERENCIAS

Libros, Artículos y Estudios de Caso

Tablas de Metodologías y Conceptos recopilados durante el proyecto

Referencias a Módulos IEBS