2ヶ月前
Label2Label: 複数属性学習のための言語モデルフレームワーク
Li, Wanhua ; Cao, Zhexuan ; Feng, Jianjiang ; Zhou, Jie ; Lu, Jiwen

要約
物体は通常、複数の属性と関連付けられており、これらの属性はしばしば高い相関性を示します。属性間の複雑な関係をモデル化することは、多属性学習にとって大きな課題となっています。本論文では、複雑な属性相関を利用するために、単純でありながら汎用的なフレームワークである「Label2Label」を提案します。「Label2Label」は言語モデリングの観点から多属性予測に取り組む最初の試みです。具体的には、各属性ラベルをサンプルを説明する「単語」として扱います。各サンプルが複数の属性ラベルで注釈されているため、これらの「単語」は自然に無順序だが意味のある「文」を形成し、対応するサンプルの意味情報を描写します。NLPにおける事前学習言語モデルの著しい成功に着想を得て、「Label2Label」は画像条件付きマスク言語モデルを導入します。このモデルはラベル「文」から一部の「単語」トークンをランダムにマスキングし、画像特徴が伝えるコンテキストとマスキングされた「文」に基づいてそれらを復元することを目指します。我々の直感は、ニューラルネットワークがコンテキストと残りの属性ヒントに基づいて欠落した属性を推論できる場合、インスタンスごとの属性関係がよく理解されているということです。「Label2Label」は概念的に単純でありながら実証的に強力です。タスク固有の事前知識や高度に専門化されたネットワーク設計を取り入れることなく、我々の手法は3つの異なる多属性学習タスクにおいて最先端の結果を達成しており、高度にカスタマイズされたドメイン固有の方法と比較しても優れています。コードは以下のURLで公開されています: https://github.com/Li-Wanhua/Label2Label.