17日前

マルチモーダル分類器におけるバイアス除去：機能エントロピーの最大化による正則化

Itai Gat, Idan Schwartz, Alexander Schwing, Tamir Hazan

要約

近年の多くのデータセットは、視覚質問応答（VQA）における画像、質問、回答など、多様なデータモダリティを含んでいる。これらのマルチモーダルデータセット上で深層ネットワーク分類器を訓練する際、各モダリティは異なるスケールで活用され、あるモダリティが他のモダリティよりも分類結果に容易に寄与する傾向がある。これは非最適であり、分類器がモダリティの一部に本質的なバイアスを抱えているためである。この問題を緩和するため、本研究では関数エントロピーに基づく新しい正則化項を提案する。直感的には、この正則化項は各モダリティが分類結果に与える寄与を均等にするよう促進する。しかしながら、関数エントロピーを用いた正則化は困難である。これを解決するため、対数ソボレフ不等式に基づく手法を開発した。この不等式により、関数エントロピーを関数的フィッシャー情報（functional-Fisher-information）で上界で抑えられる。直感的には、各モダリティが提供する情報量を最大化する効果がある。VQA-CPv2およびSocialIQという2つの困難なマルチモーダルデータセットにおいて、最先端の性能を達成するとともに、モダリティの利用をより均一に実現した。さらに、色付きMNIST（Colored MNIST）においても本手法の有効性を実証した。