ホテルは機械学習を使用してどのゲストが屈するかを予測します

4 年前

データセット

本当に緊張しました

神经小兮

特色图像

今日、ビッグデータはあらゆる分野で活用されており、ホテル業界も例外ではありません。ビッグデータを最大限に活用することで、ホテルは市場の需要の変化を予測し、インテリジェントな意思決定分析を行い、運営状況を改善することができます。

現在、主要な OTA (オンライン旅行代理店) プラットフォームにより、指を動かすだけでホテルの宿泊施設や観光スポットのチケットなどが簡単に予約できるようになりました。

数十種類の国内外のホテル・ホームステイ予約プラットフォーム

より多くのユーザーを予約に誘致するために、これらのプラットフォームは、いつでも無料キャンセル、または限られた時間内での無料キャンセルなど、緩やかなキャンセルポリシーを設定することを販売者に奨励します。

宿泊販売において世界最大のオンラインホテル予約サイトであるブッキングは、キャンセル無料のため旅行愛好家の間で非常に人気があります。

しかし、利用者にとって「キャンセル無料」は非常にありがたいことですが、ホテルにとっては非常に迷惑です。注文を一時的にキャンセルすると、通常、ホテルに次のような損失が発生します。

  1. キャンセルされた客室の販売が間に合わず、ホテルは収益を失います。
  2. ホテルはキャンセルされた部屋を割引価格で販売し、利益を減少させる
  3. これらの客室をできるだけ早く予約するには、ホテルは追加の宣伝および販売チャネルのコストを増やす必要があります。

利用者がいつでもホテルを手放せる場合、ホテル側が少しでも損失を減らす方法はあるのでしょうか?

ポルトガル人のビジネス アナリスト (略して BA、この役職は IT 企業のプロダクト マネージャーに相当) のマヌエル バンザは、ホテル経営で 5 年以上の経験があります。ヨーロッパのホテル予約プラットフォームの公開データを使用して、ホテルがタイムリーに損失を防ぐために、注文をキャンセルする可能性が高いユーザーの特徴を発見しました。

約120,000件のホテル予約データからパターンを発見

データ サイエンスの愛好家として、Manuel Banza はデータ サイエンスと機械学習から始めました。

彼が最初に直面したのは、 「ホテル予約需要データセット」(ホテル予約需要)を総合的に分析しました。このデータ セットには、通常のホテルとリゾート ホテルに関する次の 32 次元のデータが含まれています。

ユーザーの国籍、予約時間、滞在時間、大人と子供または幼児の人数、注文が最終的にキャンセルされたかどうか、この注文以前にユーザーが注文をキャンセルした合計回数などの情報。

ホテル予約需要 

ホテル予約需要データセット

発行機関:リスボン大学、ポルトガル

含まれる数量:合計 119,390 データ、32 次元

データ形式:csv データサイズ:16.9MB(圧縮時1.3MB)

住所:https://orion.hyper.ai/datasets/14866

部分データ表示

マヌエル・バンザ氏は統計を通じて、1 年間に多くのユーザーがホテルの予約をキャンセルしたことを発見しました。

2018 年には、OTA プラットフォーム Booking で予約したユーザーの 49.8% が注文をキャンセルし、この割合は 66% にも達しました。 。全体として、2018 年の複数のプラットフォームの平均予約注文キャンセル率は 39.6% に達しました。

さまざまな予約チャネルによるキャンセルされた注文の割合

次に、著者はデータに対して探索的分析を実施し、次のことを発見しました。

  • 一般のホテルやリゾートホテルに比べ、宿泊客からのキャンセルが発生しやすいため、
  • キャンセルの割合は春節と夏に多くなりますが、冬はキャンセルの割合が最も低くなります。
  • さまざまな予約チャネルの中で、ユーザーは OTA プラットフォームで最も多くの注文を出しますが、同時に OTA プラットフォームでは最も多くの注文がキャンセルされます。
  • ユーザーが予約するのが早ければ早いほど、不確実性が大きくなり、キャンセルされる可能性が高くなります。

著者は、ホテルの収益実績を分析する際に予約時間は最も重要な指標の 1 つであると述べています。分析結果によると、1 年以上前に行われた予約はキャンセルの確率が最も高く、57.14% であり、1 週間以内に行われた予約はキャンセルの確率が最も低く、7.73% です。

予約の何日前(横軸)は注文のキャンセル確率(縦軸)に比例します計画が早ければ早いほど、変化に追いつくのが難しくなるようです。

機械学習モデル: 誰が「ハトを放す」可能性が最も高いかを予測する

データセットの包括的な分析を実施した後、著者らは注文キャンセルを予測するためのモデルの構築を開始しました。

ステップ 1: データのクリーニング

まず、データセット内の欠損値が処理されます。これらの欠損値は、変数が数値の場合は特徴の平均に置き換える必要があり、変数がカテゴリカルの場合は定数に置き換える必要があります。

次に、reservation_status (予約ステータス。この変数は注文がキャンセルされたかどうかを表します。0 はキャンセルされていないことを意味し、1 はキャンセルされたことを意味します) を削除します。これは機械学習モデルが予測する値であるためです。

ステップ 2: 最適なモデルを選択する

データに最適なアルゴリズムのテストを開始する前に、データ セットを 8:2 の比率で分割します。その後、データの 80% がモデルのトレーニングに使用され、データの 20% が検証セットとして使用されます。

データ サイエンスの分野では、注文キャンセルの予測は教師付き分類問題であり、二項分類とも呼ばれます。したがって、著者は、LightGBM、CatBoost、XGBoost、H2O などのいくつかの既存の 2 分類モデルをトレーニングと比較のために選択し、最終的に最良の実験結果を持つモデル CatBoost を選択しました。

CatBoost の予測結果から、次の点がわかりました。

  1. ユーザーの国籍がポルトガルの場合、注文がキャンセルされる可能性が高くなります。ただし、グループ予約の場合、ホテルは通常、各人の国籍情報を事前に取得しません。予約がキャンセルされた場合、ほとんどのホテルはデフォルトでそのホテルが所在する国に国籍を設定します。したがって、この情報は参照のみを目的としており、正確ではない可能性があります。
  2. 特別なリクエストを行わなかったユーザーは、少なくとも 1 つの特別なリクエストを行ったユーザーよりも注文をキャンセルする可能性が高くなりました。
  3. lead_time (予約時刻とチェックイン時刻の間の日数) の値が小さいほど、予約キャンセルの可能性が低くなります (この予測結果は以前のデータ分析の結果と一致しています)。
ポルトガルの人気ホテル、ユーロスター博物館はホテル内に考古学展示があるオンライン予約と無料キャンセルをサポートする複数のOTAプラットフォームを開始

検証セットでの CatBoost モデルのパフォーマンス:

「ホテル予約需要」データセット全体のパフォーマンス:

ホテル: キャンセルする前に、まず救出させてください

この予測モデルを使用すると、ホテルはどのユーザーが注文をキャンセルする可能性が高いかを事前に把握し、タイムリーに是正措置を講じることができます。

たとえば、キャンセルする可能性が高いユーザーに事前に連絡し、コミュニケーションを通じてできるだけ早くキャンセルしてもらい、ホテルが部屋を販売する時間を増やすことができます。

あるいは、キャンセルしそうなユーザーに連絡を取り、ホテルのメリットを紹介したり、宿泊特典を提供したりして、流れを変えてユーザーを引き留めることもできます。

機械学習はホテルが状況を活用するのに役立ちます

ニュースソース:

https://www.linkedin.com/pulse/u-hotel-booking-cancellations-using-machine-learning-manuel-banza