2ヶ月前

TAG: テキスト認識を活用した視覚的質問応答生成によるText-VQAの向上

Jun Wang; Mingfei Gao; Yuqian Hu; Ramprasaath R. Selvaraju; Chetan Ramaiah; Ran Xu; Joseph F. JaJa; Larry S. Davis
TAG: テキスト認識を活用した視覚的質問応答生成によるText-VQAの向上
要約

Text-VQAの目的は、画像内のテキスト的な手がかりを理解することで質問に答えることです。既存のText-VQA手法は大きな進歩を遂げていますが、その性能は十分な人間による質問-回答(QA)ペアのラベル付け不足により影響を受けます。しかし、私たちは一般的に、既存のデータセットでシーンテキストが完全に活用されていないことを観察しました。各画像内のテキストのうち、わずかな部分しか注釈されたQA活動に参加していません。これにより有用な情報が大量に浪費されています。この欠点を解決するために、私たちは新しい方法を開発し、各画像のシーンコンテクストにある豊富なテキストを明示的に利用して高品質かつ多様なQAペアを生成します。具体的には、TAG(Text-Aware Visual Question-Answer Generation Architecture)と呼ばれるテキスト認識型視覚質問回答生成アーキテクチャを提案します。このアーキテクチャはマルチモーダルトランスフォーマーを使用して意味的かつ正確なQAサンプルを作成する能力を持っています。TAGは未活用のシーンテキスト情報を活用し、生成されたQAペアを初期トレーニングデータと組み合わせることでText-VQAモデルのシーン理解能力を向上させます。2つの有名なText-VQAベンチマーク(TextVQAおよびST-VQA)での広範な実験結果は、提案したTAGが追加のラベル付け作業なしでトレーニングデータを効果的に増やし、Text-VQA性能を向上させることを示しています。さらに、私たちのモデルは大規模なデータで事前学習された最先端の手法よりも優れた性能を発揮しています。コードはhttps://github.com/HenryJunW/TAG から入手可能です。

TAG: テキスト認識を活用した視覚的質問応答生成によるText-VQAの向上 | 最新論文 | HyperAI超神経