HyperAIHyperAI

Command Palette

Search for a command to run...

Unicoder-VL: 交叉モーダル事前学習による視覚と言語の普遍的なエンコーダー

Gen Li; Nan Duan; Yuejian Fang; Ming Gong; Daxin Jiang; Ming Zhou

概要

我々はUnicoder-VLを提案します。これは、事前学習の方法で視覚と言語の合同表現を学ぶことを目指した普遍的なエンコーダです。クロスリンガルの事前学習モデル(XLMやUnicoderなど)から着想を得て、視覚的および言語的内容が多層トランスフォーマーに供給され、クロスモーダルな事前学習が行われます。ここで、3つの事前学習タスクが用いられます。それらはマスクされた言語モデル化(Masked Language Modeling: MLM)、マスクされたオブジェクト分類(Masked Object Classification: MOC)、および視覚-言語マッチング(Visual-linguistic Matching: VLM)です。最初の2つのタスクは、言語的および視覚的内容に基づいて入力トークンの文脈に応じた表現を学びます。最後のタスクでは、画像とテキストが互いを説明しているかどうかを予測しようとします。大規模な画像-キャプションペアでの事前学習後、Unicoder-VLは単一の追加出力層だけでキャプションベースの画像-テキスト検索と視覚常識推論に転移されます。両方のタスクにおいて最先端またはそれに匹敵する結果を達成し、クロスモーダルな事前学習の強力な能力を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Unicoder-VL: 交叉モーダル事前学習による視覚と言語の普遍的なエンコーダー | 記事 | HyperAI超神経