7日前

GIT:視覚と言語向けの生成型画像からテキストへのトランスフォーマー

Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang
GIT:視覚と言語向けの生成型画像からテキストへのトランスフォーマー
要約

本論文では、画像・動画のキャプション生成や質問応答といった視覚言語タスクを統一するため、生成型画像からテキストへの変換モデルであるGIT(Generative Image-to-text Transformer)を設計・訓練した。生成型モデルは事前学習と微調整の間で一貫したネットワーク構造を提供するが、従来の手法は通常、複雑な構造(単一・マルチモーダルエンコーダ/デコーダ)を採用しており、オブジェクト検出器やタグ付けモジュール、光学的文字認識(OCR)などの外部モジュールに依存している。一方、GITでは、単一の言語モデルタスクの下で、一つの画像エンコーダと一つのテキストデコーダというシンプルな構造を採用した。さらに、事前学習データ量およびモデルサイズを拡大することで、モデル性能を向上させた。装飾的な要素を一切用いずに、12の困難なベンチマークにおいて、大幅な差で新たな最先端性能(SOTA)を達成した。例えば、TextCapsにおいて、CIDErスコアで138.2(モデル)vs. 125.5(人間)と、初めて人間の性能を上回った。さらに、生成に基づく画像分類およびシーンテキスト認識の新しいアプローチを提示し、標準ベンチマーク上で良好な性能を達成した。コードは、\url{https://github.com/microsoft/GenerativeImage2Text} にて公開されている。

GIT:視覚と言語向けの生成型画像からテキストへのトランスフォーマー | 最新論文 | HyperAI超神経