6ヶ月前

概要

ゼロショット学習（Zero-shot Learning, ZSL）は、学習中に一度も出現しなかった未観測クラスのラベルを予測することを目的としている。ゼロショット画像分類において、最も有効かつ広く用いられている意味的情報の一つは、クラスレベルの視覚的特徴を記述する属性（attribute）である。しかし、現在の手法は、細粒度な属性ラベルの不足に加え、属性の不均衡性および共起性（co-occurrence）の問題により、画像間の微細な視覚的差異を十分に区別できない傾向にある。本論文では、事前学習された言語モデル（Pre-trained Language Models, PLMs）から得られる潜在的意味知識を、自己教師付きマルチモーダル学習フレームワークを介して統合する、トランスフォーマーに基づくエンドツーエンド型ZSL手法であるDUETを提案する。具体的には、(1) 画像から意味属性を分離する能力を評価するためのクロスモーダル意味的基盤ネットワークを設計し、(2) 属性の共起性および不均衡性に対抗して細粒度な視覚的特徴の識別力を強化するための属性レベルの対照学習戦略を適用し、(3) 複数のモーダルな目的を同時に考慮するためのマルチタスク学習ポリシーを提案した。実験の結果、DUETは3つの標準ZSLベンチマークおよび知識グラフを搭載したZSLベンチマークにおいて、最先端の性能を達成することが確認された。また、本手法の各構成要素は有効であり、モデルの予測結果は解釈可能であることも明らかになった。

ソースPDF