
要約
視覚と言語に関するタスク、特に画像・テキスト再検索タスクにおいて、多数のモデルが提案されてきた。このチャレンジにおける最先端(SOTA)モデルは、いずれも数億ものパラメータを有しており、全体的な性能向上が実証された大規模な外部データセット上で事前学習されている。インターネット上で既に利用可能な多数のSOTAモデルを上回る新たなモデルを、独創的なアーキテクチャで構築し、多数のGPUを用いて大規模データセット上で徹底的に学習するのは極めて困難である。本論文では、新規にモデルを構築するのではなく、既存の事前学習モデルを統合することでより優れた結果を達成できる、コンパクトなグラフベースのフレームワーク「HADA」を提案する。まず、事前学習モデルから抽出された特徴量をノードとし、それらを結ぶエッジで構成されるグラフ構造を構築した。このグラフ構造により、各事前学習モデルからの情報を効果的に捕捉・統合する。次に、グラフニューラルネットワーク(GNN)を用いてノード間の接続を更新し、画像およびテキストの代表的埋め込みベクトルを生成した。最後に、コサイン類似度を用いて画像と関連するテキスト、およびその逆をマッチングさせることで、推論時間を低く抑えることを実現した。実験の結果、HADAは学習可能なパラメータ数が極めて少ないにもかかわらず、Flickr30kデータセットにおける評価指標でベースライン性能を3.6%以上向上させることを確認した。さらに、本モデルは外部データセットの学習を一切行わず、多数のGPUを必要とせず、パラメータ数が少ないため1台のGPUでの学習で十分である。ソースコードは以下のURLから公開されている:https://github.com/m2man/HADA。