호텔은 머신 러닝을 사용하여 어떤 손님이 일어설지 예측합니다.

요즘 빅데이터는 모든 분야에 적용되고 있으며, 호텔 산업도 예외는 아닙니다. 호텔은 빅데이터를 최대한 활용함으로써 시장 수요의 변화를 예측하고, 지능적인 의사결정 분석을 실시하며, 운영 조건을 개선할 수 있습니다.
요즘에는 주요 OTA(온라인 여행사) 플랫폼이 사람들의 여행을 크게 편리하게 만들었습니다. 호텔 숙박, 명소 티켓 등을 몇 번의 클릭만으로 쉽게 예약할 수 있습니다.

더 많은 사용자가 예약을 하도록 유도하기 위해 이러한 플랫폼은 판매자에게 언제든지 무료로 취소할 수 있는 정책이나 제한된 시간 내에 무료로 취소할 수 있는 정책 등, 더 느슨한 취소 정책을 설정하도록 권장할 것입니다.
객실 판매량 기준 세계 최대 규모의 온라인 호텔 예약 사이트인 Booking.com은 무료 취소 혜택 덕분에 여행객들에게 인기가 많습니다.
하지만 "무료 취소"는 사용자에게는 매우 좋지만, 호텔에게는 골치 아픈 문제입니다. 주문을 일시적으로 취소하면 일반적으로 호텔에 다음과 같은 손실이 발생합니다.
- 취소된 객실은 제때 판매될 수 없으며, 호텔은 수익을 잃게 됩니다.
- 호텔, 취소된 객실 판매 위해 가격 인하로 수익 감소
- 가능한 한 빨리 이러한 객실을 예약하기 위해 호텔은 홍보 및 유통 채널에 대한 추가 비용을 지출해야 합니다.
사용자가 언제든지 호텔을 폐쇄할 수 있다면 호텔이 손실을 최소화할 수 있는 방법이 있을까요?
포르투갈 비즈니스 분석가(BA, IT 회사의 제품 관리자와 동등한 직책)인 마누엘 반자는 호텔 경영 분야에서 5년 이상의 경험을 쌓았습니다.그유럽 호텔 예약 플랫폼의 공개 데이터를 활용하여 주문을 취소할 가능성이 높은 사용자의 특성을 파악했고, 이를 통해 호텔이 적시에 손실을 막을 수 있도록 도왔습니다.
약 120,000개의 호텔 예약 데이터에서 우리는 패턴을 발견했습니다.
데이터 과학에 관심이 많은 마누엘 반자는 데이터 과학과 머신 러닝으로 시작했습니다.
그는 먼저 「호텔 예약 수요 데이터 세트」(호텔 예약 수요)에 대한 포괄적인 분석을 실시했습니다. 이 데이터 세트에는 다음을 포함하여 일반 호텔과 리조트 호텔에 대한 32개 차원의 데이터가 포함되어 있습니다.
사용자의 국적, 예약 시간, 체류 기간, 성인 및 어린이/유아의 수, 주문이 최종적으로 취소되었는지 여부, 이 주문 이전에 사용자가 주문을 취소한 총 횟수와 같은 정보입니다.
호텔 예약 수요
호텔 예약 수요 데이터 세트
출판사:포르투갈 리스본 대학교
포함된 수량:총 119390개의 데이터, 32차원
데이터 형식:CSV 데이터 크기:16.9MB(압축 시 1.3MB)
주소:https://orion.hyper.ai/datasets/14866

마누엘 반자는 통계를 통해 많은 사용자가 1년 동안 호텔 주문을 취소했다는 사실을 발견했습니다.
2018년에는 OTA 플랫폼 Booking을 이용한 사용자의 49.8%가 주문을 취소했습니다. HRS 그룹에서는 이 비율이 66%로 높았습니다. . 전반적으로 여러 플랫폼의 평균 예약 주문 취소율은 2018년에 39.6%에 도달했습니다.

다음으로 저자는 데이터에 대한 탐색적 분석을 수행하여 다음과 같은 사실을 발견했습니다.
- 일반 호텔이나 리조트 호텔에 비해 투숙객이 예약을 취소할 가능성이 더 높습니다.
- 춘절과 여름철에는 취소율이 높고, 겨울철에는 취소율이 가장 낮습니다.
- 다양한 예약 채널 중에서 OTA 플랫폼에서 사용자가 가장 많이 주문하지만, OTA 플랫폼에서 가장 많은 주문이 취소됩니다.
- 사용자가 일찍 예약을 할수록 불확실성이 커지고 취소 가능성도 커집니다.
저자는 예약 시간이 호텔 수익 실적을 분석할 때 가장 중요한 지표 중 하나라고 말합니다. 분석 결과, 1년 이상 미리 예약한 경우 취소 확률이 57.14%로 가장 높은 것으로 나타났습니다. 일주일 이내에 이루어진 예약의 취소 확률은 7.73%로 가장 낮습니다.

머신 러닝 모델: 누가 일어설 가능성이 가장 높은지 예측
저자는 데이터 세트를 철저히 분석한 후 주문 취소를 예측하는 모델을 구축하기 시작했습니다.
1단계: 데이터 정리
먼저, 데이터 세트에서 누락된 값을 처리합니다. 이러한 누락된 값은 변수가 숫자형인 경우 특성의 평균으로 대체해야 하고, 변수가 범주형인 경우 상수로 대체해야 합니다.
그런 다음 reservation_status(주문이 취소되었는지 여부를 나타내는 예약 상태, 0은 취소되지 않음, 1은 취소됨)를 제거합니다. 이는 머신 러닝 모델이 예측할 값이기 때문입니다.
2단계: 가장 적합한 모델 선택
데이터에 가장 적합한 알고리즘을 테스트하기 전에 데이터 세트를 8:2의 비율로 분할하세요. 그 후, 데이터의 80%는 모델을 학습하는 데 사용되고, 20%는 검증 세트로 사용됩니다.
데이터 과학 분야에서 주문 취소를 예측하는 것은 이진 분류라고도 하는 지도 분류 문제입니다. 그러므로,저자는 LightGBM, CatBoost, XGBoost, H2O 등 기존의 이진 분류 모델을 여러 개 선택하여 학습시키고 비교한 후, 최종적으로 실험 결과가 가장 좋은 CatBoost 모델을 선택했습니다.
CatBoost 예측 결과를 통해 다음과 같은 점을 발견했습니다.
- 사용자의 국적이 포르투갈인 경우 취소 확률이 높습니다. 하지만 단체 예약의 경우, 호텔에서는 일반적으로 각 사람의 국적 정보를 미리 얻지 않습니다. 예약이 취소되는 경우 대부분의 호텔은 호텔이 위치한 국가를 기본으로 국적을 설정합니다. 따라서 이 정보는 참고용일 뿐이며 정확하지 않을 수 있습니다.
- 특별 요청을 전혀 하지 않은 사용자는 최소한 한 번이라도 특별 요청을 한 사용자보다 주문을 취소할 가능성이 더 높았습니다.
- 예약 시간과 체크인 시간 사이의 일수(lead_time) 값이 낮을수록 예약 취소 가능성이 낮아집니다(이 예측 결과는 이전 데이터 분석 결과와 일치합니다).

검증 세트에 대한 CatBoost 모델 성능:

전체 "호텔 예약 수요" 데이터 세트에 대한 성과:

호텔: 취소하기 전에 돈을 좀 아껴두세요
이러한 예측 모델을 사용하면 호텔에서는 주문을 취소할 가능성이 있는 사용자를 미리 파악하고 시기적절한 시정 조치를 취할 수 있습니다.
예를 들어, 사전에 취소할 가능성이 높은 사용자에게 연락하여 소통을 통해 최대한 일찍 취소하도록 독려하면 호텔 측에서 객실을 판매할 시간이 더 많아집니다.
혹은 취소 의향이 있는 사용자에게 연락하여 호텔의 장점을 소개하고 숙박 보상을 제공하여 취소 의사를 밝히고 고객을 유지할 수도 있습니다.

뉴스 출처:
https://www.linkedin.com/pulse/u-hotel-booking-cancellations-using-machine-learning-manuel-banza