16日前
マルチモーダル情報監督からの転移可能な歩行者表現の学習
Liping Bao, Longhui Wei, Xiaoyu Qiu, Wengang Zhou, Houqiang Li, Qi Tian

要約
近年の教師なし人物再識別(reID)に関する研究では、ラベルのない人物画像を用いた事前学習が、ImageNetを用いた事前学習よりも下流のreIDタスクにおいて優れた性能を達成することが示されている。しかし、これらの事前学習手法は再識別専用に設計されており、他の歩行者分析タスクへの柔軟な適応が困難であるという課題を抱えている。本論文では、マルチモーダル情報を利用し、さまざまな歩行者分析タスクの性能向上を図るための新たなフレームワークVAL-PATを提案する。本フレームワークの学習には、自己教師付き対比学習、画像-テキスト対比学習、および多属性分類の3つの学習目的を導入している。自己教師付き対比学習により、人物の内在的な特徴が効果的に学習され、画像-テキスト対比学習によってモデルは人物の外見情報に注目するよう誘導される。一方、多属性分類は、細粒度な人物情報の抽出を促進するため、属性認識能力の向上を図る。まず、各画像にテキストおよび属性ラベルが付与されたLUPerson-TAデータセット上で事前学習を行い、その後、得られた表現を、人物再識別、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転移する。広範な実験により、本フレームワークが汎用的な歩行者表現を学習可能であり、様々な歩行者分析タスクにおいて優れた結果を達成できることを示した。