2ヶ月前

オープンボキャブラリ多重ラベル分類におけるアライメントされた視覚的・文章的特徴量を用いたデュアルモーダルデコーダ

Shichao Xu; Yikang Li; Jenhao Hsiao; Chiuman Ho; Zhu Qi
オープンボキャブラリ多重ラベル分類におけるアライメントされた視覚的・文章的特徴量を用いたデュアルモーダルデコーダ
要約

コンピュータビジョンにおいて、マルチラベル認識は多くの実世界の応用を持つ重要なタスクですが、これまでに見たことのないラベルを分類することは依然として大きな課題となっています。本論文では、視覚特徴とテキスト特徴との間でアライメントを行うデュアルモーダルデコーダ(DM-デコーダ)を含む新しいアルゴリズムである Aligned Dual moDality ClaSsifier (ADDS) を提案します。このアルゴリズムはオープンボキャブラリーのマルチラベル分類タスクに適用されます。さらに、高解像度の入力に対する性能を向上させるために、単純でありながら効果的な方法である Pyramid-Forwarding を設計しました。また、Selective Language Supervision を使用してモデルの性能をさらに向上させています。NUS-WIDE, ImageNet-1k, ImageNet-21k, および MS-COCO のいくつかの標準ベンチマークでの広範な実験により、我々の手法が以前の方法を大幅に上回り、オープンボキャブラリーのマルチラベル分類、従来のマルチラベル分類、そしてシングルラベルデータセット(ImageNet-1k, ImageNet-21k)で学習したモデルをマルチラベルデータセット(MS-COCO および NUS-WIDE)でテストするという極端なケースであるシングルツーマルチラベル分類においても最先端の性能を提供することが示されました。

オープンボキャブラリ多重ラベル分類におけるアライメントされた視覚的・文章的特徴量を用いたデュアルモーダルデコーダ | 最新論文 | HyperAI超神経