一般部分ラベル学習におけるデュアル二部グラフオートエンコーダー

我々は、実用的でありながらも挑戦的な問題として、一般化部分ラベル学習(General Partial Label Learning, GPLL)を定式化する。従来の部分ラベル学習(Partial Label Learning, PLL)問題と比較して、GPLLはインスタンスレベルにおけるラベルの監視仮定を緩和し、グループレベルの監視に移行する。具体的には、以下の2点が特徴である:1)ラベル集合が複数のインスタンスから成るグループを部分的にラベル付けするが、グループ内におけるインスタンスとラベルの対応関係(リンク注釈)は欠落している;2)グループ間のリンクが許容される——あるグループのインスタンスが、別のグループのラベル集合と部分的に関連付けられる可能性がある。このような曖昧なグループレベルの監視は、実世界のシナリオにおいてより現実的である。なぜなら、インスタンスレベルでの追加の注釈を必要としないためである。例えば、動画における顔名前付けのタスクでは、フレーム内の顔が1つのグループを構成し、その対応するキャプションに記載された名前集合によってラベル付けされる。本論文では、GPLLにおけるラベルの曖昧性という課題に対処するため、新たなグラフ畳み込みネットワーク(Graph Convolutional Network, GCN)である「双対二部グラフオートエンコーダ(Dual Bipartite Graph Autoencoder, DB-GAE)」を提案する。まず、グループ間の相関関係を活用して、インスタンスグループを「グループ内」および「グループ間」の双対二部グラフとして表現する。これらのグラフは互いに補完し合い、リンクの曖昧性を解消する。次に、これらのグラフを符号化・復号化するGCNオートエンコーダを設計する。復号結果を精査された最終的なラベル推定として捉える。注目すべきは、DB-GAEが自己教師あり(self-supervised)かつ伝達的(transductive)であることである。これは、別途のオフライン学習ステージを必要とせず、グループレベルの監視情報のみを用いて学習が可能であるためである。2つの実世界データセットを用いた広範な実験により、DB-GAEが最も優れたベースラインと比較して、F1スコアで絶対値0.159、精度で24.8%の顕著な性能向上を達成した。さらに、ラベルの曖昧さの度合いに応じた多層的な分析も提供している。