16日前
スタイルを失ったか?セマンティックレベルアプローチによるテキストからオシャレな服装への検索へのナビゲーション
Junkyu Jang, Eugene Hwang, Sung-Hyuk Park

要約
ファッションスタイリストは、かつて消費者の願望と完璧なコーディネートの間をつなぐ役割を果たしてきました。これには、色、柄、素材の複雑な組み合わせが含まれます。近年、ファッション推薦システムの進展により、コーディネートの整合性予測や補完アイテムの検索において一定の成果が得られていますが、これらのシステムは事前に選択された顧客の選好に大きく依存しています。そこで本研究では、ユーザーが提示するテキスト記述のみに基づいて完全なコーディネートセットを生成する画期的なアプローチ、すなわち「テキストからコーディネートへの検索(text-to-outfit retrieval)」を提案します。本モデルは、アイテム、スタイル、コーディネートの3つの意味的レベルで構成されており、各レベルが段階的にデータを統合することで、テキスト入力に基づく一貫性のあるコーディネート推薦を実現しています。ここでは、対照的言語-画像事前学習(contrastive language-image pretraining)モデルに類似した戦略を用いて、コーディネートセット内の複雑なスタイル行列(style matrix)を扱います。マリランド・ポリボア(Maryland Polyvore)およびポリボア・アウトフィット(Polyvore Outfit)データセットを用いた実験において、本手法は最先端モデルを大きく上回り、テキスト-ビデオ検索タスクにおける優れた性能を示しました。この研究は、ファッション推薦システムの新たな側面を切り開くとともに、テキスト記述を通じて個人のスタイル嗜好の本質を捉える手法を提供しています。