10日前
VL-LTR:長尾視覚認識をためのクラス別視覚言語表現学習
Changyao Tian, Wenhai Wang, Xizhou Zhu, Jifeng Dai, Yu Qiao

要約
深層学習に基づくモデルは、現実世界における長尾データを処理する際に課題に直面する。従来の解決策は、画像モダリティに基づいてクラス不均衡問題に対処するため、バランス化戦略や転移学習を用いることが一般的である。本研究では、視覚・言語モダリティを統合した長尾認識フレームワークであるVL-LTR(Visual-Linguistic Long-Tailed Recognition)を提案し、長尾認識(LTR)においてテキストモダリティを導入する効果について実証的研究を実施した。既存のアプローチと比較して、提案手法VL-LTRは以下の利点を有している。(1)本手法は画像から視覚表現を学習するだけでなく、インターネットから収集されたノイズを含むクラスレベルのテキスト記述から対応する言語表現も学習可能である。(2)学習された視覚・言語統合表現を効果的に活用し、画像サンプル数が少ないクラスにおいても視覚認識性能を著しく向上させることができる。さらに、広範な実験を実施し、広く用いられているLTRベンチマークにおいて新たな最先端(SOTA)性能を達成した。特に、ImageNet-LTにおいて77.2%の全体精度を達成し、従来の最良手法を17ポイント以上上回り、完全なImageNetでの学習で達成される一般的な性能に近づいた。コードは https://github.com/ChangyaoTian/VL-LTR で公開されている。