テストに依存しないロングテール認識における階層的ラベル分布の変動の活用

本論文では、テストに依存しない長尾認識(test-agnostic long-tail recognition)について考察します。これは、テストラベル分布が未知であり、任意の不均衡を持つという課題を含む難易度の高い長尾タスクです。我々は、これらの分布の変動を階層的にグローバルレベルとローカルレベルに分解できると主張します。グローバルレベルの変動は広範な多様性を反映し、ローカルレベルの変動は比較的穏やかな変化から生じることが多く、特定の近傍に焦点を当てています。従来の手法は主にMixture-of-Expert (MoE) アプローチを使用しており、大幅なグローバル変動を示す数少ない固定されたテストラベル分布に対して対処しています。しかし、ローカル変動は考慮されていませんでした。この問題に対処するために、我々は新しい MoE 策略である $\mathsf{DirMixE}$ を提案します。$\mathsf{DirMixE}$ は、ラベル分布の異なるディリクレメタ分布(Dirichlet meta-distributions)に専門家(experts)を割り当てます。各ディリクレメタ分布は特定のローカル変動の側面を対象としています。さらに、これらのディリクレメタ分布間の多様性が内在的にグローバル変動を捉えています。この二重レベルアプローチにより、目的関数がより安定し、異なるテスト分布からのサンプリングが改善され、性能結果の平均と分散をより正確に量化することができます。理論的には、我々は提案した目的関数が分散に基づく正則化によって一般化能力が向上することを示しています。複数のベンチマークにおける包括的な実験により、$\mathsf{DirMixE}$ の有効性が確認されました。コードは \url{https://github.com/scongl/DirMixE} で公開されています。