11日前

セマンティック・ビジュアル誘導型トランスフォーマーによる少サンプルクラス増分学習

Wenhao Qiu, Sichao Fu, Jingyi Zhang, Chengxiang Lei, Qinmu Peng
セマンティック・ビジュアル誘導型トランスフォーマーによる少サンプルクラス増分学習
要約

少数回学習による段階的分類学習(Few-shot Class-Incremental Learning, FSCIL)は、近年、さまざまな分野において注目を集めている。従来のFSCIL手法は、ベースクラスで事前学習された特徴バックボーンの堅牢性に大きく依存している。近年、さまざまなTransformerアーキテクチャが、広範な分野における特徴表現学習において顕著な進展を遂げている。しかし、FSCILの文脈においては、Transformerの性能が他の分野で示された潜在的な成果をまだ十分に発揮できていないのが現状である。本論文では、インクリメンタルクラスにおける特徴抽出能力を強化するため、意味-視覚ガイド付きTransformer(Semantic-Visual guided Transformer, SV-T)を提案する。具体的には、まずベースクラスから提供される視覚的(画像)ラベルを用いてTransformerの最適化を監視する。次に、テキストエンコーダを導入し、ベースクラスの各画像に対して自動的に対応する意味的(テキスト)ラベルを生成する。最後に、構築された意味的ラベルを用いてTransformerのハイパーパラメータ更新をガイドする。本手法SV-Tは、ベースクラスから得られるより豊富な監視情報を活用し、特徴バックボーンの学習の堅牢性をさらに高めることができる。特に重要な点として、SV-Tは独立した手法であり、既存のFSCILアーキテクチャに直接適用可能であり、さまざまなインクリメンタルクラスの埋め込み表現を獲得することが可能である。3つのベンチマーク、2種類のFSCILアーキテクチャ、および2種類のTransformer変種を用いた広範な実験により、提案手法SV-Tが従来の最先端FSCIL手法と比較して顕著な性能向上を達成することが確認された。

セマンティック・ビジュアル誘導型トランスフォーマーによる少サンプルクラス増分学習 | 最新論文 | HyperAI超神経