11日前
入力勾配空間整合を用いた属性ロバスト性トレーニング
Mayank Singh, Nupur Kumari, Puneet Mangla, Abhishek Sinha, Vineeth N Balasubramanian, Balaji Krishnamurthy

要約
信頼性のある機械学習における解釈可能性(interpretability)は、近年注目される研究分野となっている。機械学習システムの安全な導入には、予測結果とその解釈が信頼性とロバスト性を備えていることが必須である。最近の研究では、入力画像に視覚的に感知できない摂動(perturbation)を加えてもモデルの予測結果は維持されたまま、解釈結果(説明マップ)が容易に操作可能であることが示されている。本研究では、アトリビューションのロバスト性(すなわち、説明がロバストなモデル)に関する問題に着目し、入力画像とその説明マップの空間的相関性(spatial correlation)を用いて、アトリビューションの脆弱性に対する上界を導出する。さらに、この上界を最小化するためのソフトマージン三重損失(soft-margin triplet loss)を用いた学習手法を提案する。本研究で提唱するロバストなアトリビューション学習法(ART:Robust Attribution Training)は、SVHN、CIFAR-10、GTSRBといった標準データセットにおいて、従来の手法と比較して、約6~18%の優位性を達成し、新たな最先端のアトリビューションロバスト性を実現した。さらに、CUB-200データセットにおける弱教師あり物体局在(weakly supervised object localization)という下流タスクにおいても、提案手法の有効性を実証し、同タスクにおいても新たな最先端性能を達成した。