Com es descobreix
una història.
Aquesta pàgina documenta el procés d'anàlisi visual que va portar a triar la història Dos hotels, un agost. El procés segueix les fases proposades per Ramos, Ashqar & Contreiras (2024): planificació, definició dels insights, contextualització, adaptació al públic i consolidació.
El dataset
Antonio, Almeida i Nunes (2019) van publicar a Data in Brief dues bases de dades de reserves d'hotel portugueses, recopilades des dels sistemes PMS dels dos hotels. Cada observació representa una reserva i té 32 variables (incloent la columna hotel que identifica el subconjunt). Aquí s'analitzen totes dues conjuntament: 119.390 reserves amb arribada prevista entre l'1 de juliol de 2015 i el 31 d'agost de 2017.
Les variables claus per a aquesta història són: hotel (Resort/City), arrival_date_month, adr (preu mig per nit), stays_in_week_nights + stays_in_weekend_nights, children + babies, country i is_canceled.
Detecció d'anomalies
L'anàlisi exploratori amb describe() i histogrames revela diverses anomalies que cal abordar abans de qualsevol agregació:
- Adults: màxim de 55 en una única reserva — clarament erroni.
- Children: màxim de 10 amb 4 valors NA.
- Babies: màxim de 10, també amb cua llarga sospitosa.
- ADR: valors negatius (reserves a cost zero o reemborsades) i un pic anòmal a 5.400 € que distorsiona qualsevol mitjana.
- Estades: alguna reserva amb 0 nits totals (ni cap de setmana ni entre setmana).
- Ocupació: reserves amb 0 ocupants totals, incoherents amb el concepte mateix de reserva.
Neteja aplicada
Seguint les regles del notebook docent de l'assignatura:
- Eliminar reserves amb
adults ≥ 10. - Limitar
adral rang[0, 1000). - Eliminar
adr == 0(estades de cost zero). - Eliminar estades de 0 nits totals.
- Eliminar reserves sense ocupants.
- Substituir
NAdechildrenper 0.
Primera comparació entre hotels
Els histogrames d'ADR per hotel mostren distribucions clarament diferents: el City Hotel concentra preus al voltant de 100 € amb una distribució relativament simètrica, mentre que el Resort Hotel presenta una distribució asimètrica amb cua llarga cap a valors alts. Aquesta primera observació suggereix que el resort té una variabilitat de preu molt més gran, però encara no diu quan es produeix.
Patró estacional
Comptant les reserves per data d'arribada al llarg dels tres anys, s'observa un patró estacional fort: pic a l'estiu (especialment juliol-agost), vall a l'hivern (novembre-gener). Aquesta observació és consistent amb el sector turístic portuguès, on l'estiu mediterrani concentra bona part de la demanda. Tant Resort com City mostren aquest patró — però amb intensitats molt diferents.
El gir narratiu
La història apareix quan creuem preu × mes × hotel. Les xifres parlen soles:
- Resort · ADR mínim €50 (novembre), màxim €189 (agost). Ràtio pic/vall 3,8×.
- City · ADR mínim €84 (gener), màxim €123 (maig). Ràtio pic/vall 1,5×.
Aquesta divergència — més del doble del ràtio en un cas que en l'altre — és l'evidència que motiva la història. No és el mateix tipus de negoci. A partir d'aquí, la resta de variables (estada, famílies, origen, ingressos) van completar la imatge: el Resort no només cobra més a l'agost, sinó que canvia de natura cada estiu.
Referències
- Antonio, N., de Almeida, A., & Nunes, L. (2019). Hotel booking demand datasets. Data in Brief, 22, 41–49. https://doi.org/10.1016/j.dib.2018.11.126
- Ramos, C. M. Q., Ashqar, R. I., & Contreiras, A. (2024). Design of Dashboards for CRM Associated with Health and Wellbeing Tourism. HCII 2024, LNCS 15376, 154–172. https://doi.org/10.1007/978-3-031-76809-5_12
- Minguillón, J. (2025). Visual analytics of hotel bookings data [Notebook docent]. UOC.
- Notebook propi de l'anàlisi: notebooks/hotel_bookings.ipynb