多モーダル準自己回帰: 新しいファッション製品の視覚的人気予測

消費者の嗜好を推定することは、ファッション業界にとって極めて重要です。この情報を利用することで、利益面での恩恵が得られます。ファッションにおけるトレンド検出は、業界の急速な変化により困難な課題となっています。さらに、新しい衣料品デザインの視覚的な人気を予測することは、歴史的なデータの不足からより一層難しくなっています。これに対処するため、我々はMuQAR(Multimodal Quasi-AutoRegressive)と呼ばれるマルチモーダル準自己回帰深層学習アーキテクチャを提案します。MuQARは以下の2つのモジュールを組み合わせています:(1) 製品のカテゴリカル、視覚的、およびテキスト特徴を処理するマルチモーダル多層パーセプトロンと (2) 製品属性の「ターゲット」時系列と他のすべての属性の「外生」時系列をモデル化する準自己回帰ニューラルネットワーク。新製品の画像から視覚的特徴とテキスト説明を自動的に抽出するために、コンピュータビジョン、画像分類、画像キャプショニングを使用しています。ファッションにおける製品設計は最初に視覚的に表現され、これらの特徴はデザイナーの創造プロセスに干渉することなく(例えば手動で書かれたテキストなどの追加入力を必要とせずに)、製品固有の特性を表します。我々は製品属性のターゲット時系列を時間的な人気パターンの代理として使用し、歴史的なデータ不足を緩和します。一方、「外生」時系列は相互に関連する属性間のトレンドを捉えるのに役立ちます。MallzeeとSHIFT15mという大規模なファッション画像データセットに対して広範な削減分析を行い、MuQARの適切性を評価しました。また、Amazon Reviews: Home and Kitchenデータセットを使用して他の領域への汎化能力も評価しました。VISUELLEデータセットに対する比較研究では、MuQARがWAPE(Weighted Absolute Percentage Error)で4.65%、MAE(Mean Absolute Error)で4.8%それぞれ改善し、現在の最先端技術と競争し超越できることが示されました。