17日前
Less Is More: CLIP特徴量上の線形層が強力なVizWizモデルとして機能する
Fabian Deuser, Konrad Habel, Philipp J. Rösch, Norbert Oswald

要約
視覚質問応答(Visual Question Answering, VQA)を含む多モーダルタスク向けの従来のアーキテクチャは、その高い複雑性から、学習が困難であり、高額な計算リソースを要するという課題を抱えている。本研究では、特徴抽出器の微調整(fine-tuning)を一切不要とするCLIPに基づくアーキテクチャを提案する。画像エンコーダとテキストエンコーダの特徴量を連結したものをシンプルな線形分類器に入力する。学習フェーズでは、回答の種類(answer types)に対して作用する補助損失(auxiliary loss)を導入し、その出力結果を回答クラス選択におけるアテンションゲートとして用いる。VizWiz 2022 視覚質問応答チャレンジにおいて、タスク1「視覚的質問に対する回答を予測する」では60.15%の精度を達成し、タスク2「視覚的質問の回答可能性を予測する」ではAPスコア83.78%を記録した。