17日前

ワック・ア・モールのジレンマ：短絡的なアプローチは複数存在し、一つを緩和しても他のものが強調される

Zhiheng Li, Ivan Evtimov, Albert Gordo, Caner Hazirbas, Tal Hassner, Cristian Canton Ferrer, Chenliang Xu, Mark Ibrahim

要約

機械学習モデルは、一般化できない不適切な意思決定ルール（ショートカット）を学習する傾向があることが明らかになり、モデルの信頼性を損なっている。これまでの研究は、訓練データに単一のショートカットしか存在しないという弱い仮定の下でこの問題に取り組んできた。しかし、現実世界の画像には背景からテクスチャに至るまで、複数の視覚的手がかりが共存している。視覚システムの信頼性を向上させる鍵となるのは、既存の手法が複数のショートカットを同時に克服できるのか、それとも「ワック・ア・モール」的状況（一つのショートカットを軽減すると、他のショートカットへの依存が強まる）に陥るのかを理解することである。この課題に対処するため、本研究では以下の2つのベンチマークを提案する。1) あいまいな補助的特徴（spurious cues）を厳密に制御したデータセット「UrbanCars」、2) 本研究で発見した、現代の多くの視覚モデルに影響を与えるショートカット「ウォーターマーク」を評価するためのImageNetに基づく評価セット「ImageNet-W」。テクスチャや背景に加えて、ImageNet-Wを用いることで、自然画像の学習から生じる複数のショートカットを体系的に研究可能となる。実験の結果、大規模な基礎モデルを含むコンピュータビジョンモデルは、訓練データ、アーキテクチャ、教師信号の種類にかかわらず、複数のショートカットが存在する状況では著しく性能を低下させることが明らかになった。また、ショートカット対策を意図的に設計された手法ですら、「ワック・ア・モール」的ジレンマに陥ることが判明した。この課題に対処するため、本研究では「Last Layer Ensemble」というシンプルかつ効果的な手法を提案する。この手法は、複数のショートカットを同時に緩和しつつ、「ワック・ア・モール」的振る舞いを回避することができる。本研究の結果から、複数ショートカットの緩和は、視覚システムの信頼性向上に向けた重要な未解決課題であることが浮き彫りとなった。本研究で開発したデータセットおよびコードは、以下のGitHubリポジトリで公開されている：https://github.com/facebookresearch/Whac-A-Mole。