8ヶ月前

概要

実世界認識システムは、未見のラベルに遭遇するという課題をしばしば経験します。このような未見のラベルを識別するために、多ラベルゼロショット学習（ML-ZSL）は事前学習されたテキストラベル埋め込み（例：GloVe）による知識転送に焦点を当てています。しかし、これらの方法は言語モデルからの単一モーダルの知識のみを利用し、画像とテキストのペアに内在する豊富な意味情報を見逃しています。これに対して、最近開発されたオープンボキャブラリー（OV）ベースの手法は物体検出において画像とテキストのペアの情報を活用し、印象的な性能を達成しています。OVベースの手法の成功に触発されて、私たちは多ラベル分類のために新しいオープンボキャブラリー枠組みであるマルチモーダル知識転送（MKT）を提案します。具体的には、私たちの手法はビジョンおよび言語事前学習（VLP）モデルに基づいて画像とテキストのペアのマルチモーダルな知識を利用します。VLPモデルの画像とテキストのマッチング能力を転送するために、知識蒸留が用いられ、画像とラベル埋め込みの一貫性を保証します。さらに、プロンプトチューニングによりラベル埋め込みを更新します。複数の物体認識を可能にするために、局所特徴量と全局所特徴量を捕捉するための単純ながら効果的な二つのストリームモジュールを開発しました。広範な実験結果は、私たち的方法が公開ベンチマークデータセット上で最先端手法よりも著しく優れていることを示しています。ソースコードは https://github.com/sunanhe/MKT で利用可能です。

ソースPDF