HyperAIHyperAI

Command Palette

Search for a command to run...

GIT:視覚と言語向けの生成型画像からテキストへのトランスフォーマー

Jianfeng Wang Zhengyuan Yang Xiaowei Hu Linjie Li Kevin Lin Zhe Gan Zicheng Liu Ce Liu Lijuan Wang

概要

本論文では、画像・動画のキャプション生成や質問応答といった視覚言語タスクを統一するため、生成型画像からテキストへの変換モデルであるGIT(Generative Image-to-text Transformer)を設計・訓練した。生成型モデルは事前学習と微調整の間で一貫したネットワーク構造を提供するが、従来の手法は通常、複雑な構造(単一・マルチモーダルエンコーダ/デコーダ)を採用しており、オブジェクト検出器やタグ付けモジュール、光学的文字認識(OCR)などの外部モジュールに依存している。一方、GITでは、単一の言語モデルタスクの下で、一つの画像エンコーダと一つのテキストデコーダというシンプルな構造を採用した。さらに、事前学習データ量およびモデルサイズを拡大することで、モデル性能を向上させた。装飾的な要素を一切用いずに、12の困難なベンチマークにおいて、大幅な差で新たな最先端性能(SOTA)を達成した。例えば、TextCapsにおいて、CIDErスコアで138.2(モデル)vs. 125.5(人間)と、初めて人間の性能を上回った。さらに、生成に基づく画像分類およびシーンテキスト認識の新しいアプローチを提示し、標準ベンチマーク上で良好な性能を達成した。コードは、\url{https://github.com/microsoft/GenerativeImage2Text} にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています