6ヶ月前

概要

あるエンティティが物体と相互作用するためには、特定の動作を可能にする部位を正確に識別することが不可欠である。弱教師付きアフォーダンス・グラウンディング（WSAG）は、第三者視点のデモンストレーションから人間が学ぶ様子を模倣することを目指しており、人間はピクセル単位のアノテーションを必要とせずに、直感的に機能的な部位を把握できる。この目的を達成するため、通常は異なる視点からの画像において共通の分類器を用いてグラウンディングを学習し、部位発見プロセスを統合するための知識蒸留戦略が用いられる。しかし、アフォーダンスに関連する部位は常に明確に識別できるわけではないため、モデルは主に分類に基づいて学習し、アフォーダンスとは無関係な一般的なクラス固有のパターンに依存しがちである。この制約を克服するために、我々は単独の部位レベルの学習にとどまらず、利用可能な情報の粒度に応じて部位レベルおよびオブジェクトレベルの両方で、アフォーダンスに関連する手がかりを適応的に学習できる選択的プロトタイプおよびピクセル対比的目的を導入する。まず、CLIPを活用してエゴセントリック（物体中心）およびエクソセントリック（第三者視点）の画像の両方において、動作に関連するオブジェクトを特定する。その後、補完的な視点から得られた発見されたオブジェクトを相互に照合することで、それぞれの視点における正確な部位レベルのアフォーダンス手がかりを抽出する。このように、アフォーダンスに関連する領域と、関係のない背景コンテキストを一貫して区別する学習を進めることで、無関係な領域への活性化を抑制し、意味あるアフォーダンス手がかりへと適切にシフトさせる。実験結果により、本手法の有効性が示された。コードは github.com/hynnsk/SelectiveCL にて公開されている。

ソースPDF