HyperAIHyperAI

Command Palette

Search for a command to run...

オスカー:視覚言語タスクのためのオブジェクト意味論整合型事前学習

概要

画像とテキストのペアを用いたマルチモーダル表現の大規模事前学習手法は、視覚言語タスクにおいてますます注目を集めています。従来の手法は、画像の領域特徴とテキスト特徴を単純に連結してモデルの入力とし、自己注意機構(self-attention)を用いて brute force(力任せ)な方法で画像とテキストの意味的対応関係を学習するものですが、本論文では、画像内で検出された物体タグをアンカー点として用いることで、対応関係の学習を著しく容易にする新たな学習手法「Oscar(Object-Semantics Aligned Pre-training)」を提案します。本手法の提案は、画像内の顕著な物体は正確に検出可能であり、かつそれらが対応するテキストで頻出するという観察に基づいています。我々は、650万件の公開テキスト・画像ペアからなるコーパス上でOscarモデルを事前学習し、下流タスクにおいて微調整(fine-tuning)を実施することで、6つの代表的な視覚言語理解および生成タスクにおいて、新たな最良の性能(state-of-the-art)を達成しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
オスカー:視覚言語タスクのためのオブジェクト意味論整合型事前学習 | 記事 | HyperAI超神経