16日前
CLASTER:ゼロショット行動認識を実現する強化学習を用いたクラスタリング
Shreyank N Gowda, Laura Sevilla-Lara, Frank Keller, Marcus Rohrbach

要約
ゼロショット行動認識とは、視覚的な例(サンプル)を一切用いずに、未見の行動クラスを認識するタスクであり、その際には「既知クラス」と「未知クラス」を関連付ける語義埋め込み(semantic embedding)のみを用いる。この問題は、未知クラスのインスタンスに対して良好な一般化性能を発揮しつつ、クラス間の識別力を損なわない関数を学習するという観点から捉えられる。ニューラルネットワークは視覚的クラス間の複雑な境界をモデル化できるため、教師あり学習において高い性能を発揮している。しかしゼロショット学習の文脈では、既知クラスに特化したクラス境界が未知クラスにうまく一般化されない場合がある。本論文では、視覚的表現と語義的表現をクラスタリングする中心点ベースの表現(centroid-based representation)を提案する。このアプローチは、すべての訓練サンプルを同時に考慮することで、未知クラスからのインスタンスに対しても優れた一般化性能を達成する。さらに、強化学習(Reinforcement Learning)を用いてクラスタリングを最適化する手法を導入し、これが本手法の有効性に不可欠であることを示す。提案手法を「CLASTER」と命名し、UCF101、HMDB51、Olympic Sportsといった標準的なデータセットにおいて、従来の最先端手法を一貫して上回ることを確認した。これは、標準的なゼロショット評価だけでなく、一般化ゼロショット学習(generalized zero-shot learning)の設定においても同様に成り立つ。さらに、画像領域における性能についても検証した結果、多くの設定において既存の最先端手法を上回る競争力を持つことが示された。