17日前

視覚・言語タスクの統合:テキスト生成によるアプローチ

Jaemin Cho, Jie Lei, Hao Tan, Mohit Bansal
視覚・言語タスクの統合:テキスト生成によるアプローチ
要約

視覚・言語学習における従来の手法は、各タスクごとに特化したアーキテクチャおよび目的関数を設計する必要がある。たとえば、視覚質問応答(VQA)には多ラベル回答分類器、参照表現理解(REC)には領域スコアリング機構、画像キャプション生成には言語デコーダーなどが用いられる。こうした煩雑さを軽減するために、本研究では、同一のアーキテクチャと同一の言語モデリング目的関数(すなわち、マルチモーダル条件付きテキスト生成)を用いて、複数のタスクを統一的に学習するフレームワークを提案する。このフレームワークでは、モデルが視覚的およびテキスト的入力に基づいて、タスクに応じたラベルをテキスト形式で生成する能力を学習する。視覚質問応答、参照表現理解、視覚的共通認識推論など、7つの代表的な視覚・言語ベンチマークにおいて、これまで判別型タスクとしてモデル化されてきた多くのタスクに対して、本研究の生成型アプローチ(単一の統一アーキテクチャ)が、最近のタスク特化型最先端モデルと同等の性能を達成した。さらに、稀な回答を持つ質問に対しては、本アプローチが優れた一般化能力を示した。また、同一のパラメータセットを用いて単一アーキテクチャ内でマルチタスク学習が可能であり、個別に最適化された単一タスクモデルと同等の性能を達成できることも示した。本研究のコードは、以下のURLで公開されている:https://github.com/j-min/VL-T5

視覚・言語タスクの統合:テキスト生成によるアプローチ | 最新論文 | HyperAI超神経