9日前

分布整合:長尾視覚認識のための統一フレームワーク

Songyang Zhang, Zeming Li, Shipeng Yan, Xuming He, Jian Sun
分布整合:長尾視覚認識のための統一フレームワーク
要約

深層ニューラルネットワークの近年の成功にもかかわらず、視覚認識タスクにおける長尾クラス分布を効果的にモデル化することは依然として難しい課題である。本研究では、この問題に対処するため、まずアブレーションスタディを通じて二段階学習フレームワークの性能ボトルネックを詳細に検討した。その発見を受けて、長尾視覚認識に対する統一的な分布整合戦略を提案する。具体的には、各データポイントに対する分類スコアを適応的に調整できる自己調整関数を構築した。さらに、二段階学習においてクラス事前確率のバランスを取るための汎用的な再重み付け手法を導入し、視覚認識タスクにおける多様な状況に対応可能な柔軟かつ統一的な解決策を提供する。本手法の有効性を、画像分類、セマンティックセグメンテーション、物体検出、インスタンスセグメンテーションの4つのタスクにおいて広範な実験を通じて検証した。提案手法は、単一で統一されたフレームワークにより、すべての4つの認識タスクで最先端の性能を達成した。コードおよびモデルは、以下のURLにて公開される予定である:https://github.com/Megvii-BaseDetection/DisAlign

分布整合:長尾視覚認識のための統一フレームワーク | 最新論文 | HyperAI超神経