8ヶ月前

マルチタスク学習

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Dong-Jin Kim Jinsoo Choi Tae-Hyun Oh In So Kweon

概要

本研究の目的は、より密度が高く情報量の多い画像キャプションを生成するモデルを訓練することである。私たちは「関係性キャプション」（relational captioning）という新しい画像キャプションタスクを導入する。このタスクは、画像内のオブジェクト間の関係性に基づいて複数のキャプションを生成することを目指しており、多様性と情報量において優れたフレームワークである。これにより、関係性に基づいた画像理解が可能となる。品詞（Part-of-Speech, POS、すなわち主語-目的語-述語のカテゴリー）タグは、英語の各単語に割り当てることができる。私たちは、POSを事前知識として活用し、キャプション内の単語の正しい順序をガイドするために利用する。この目的のために、私たちは3つの再帰ユニットから構成され、それぞれのPOSに対する予測とキャプション生成を同時に行うマルチタスク・トリプルストリームネットワーク（Multi-Task Triple-Stream Network, MTTSNet）を提案する。提案したモデルがいくつかのベースラインや競合手法に対してより多様で豊かな表現を生成することを示している。以上が原文に基づく日本語訳です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチタスク学習

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Dong-Jin Kim Jinsoo Choi Tae-Hyun Oh In So Kweon

概要

本研究の目的は、より密度が高く情報量の多い画像キャプションを生成するモデルを訓練することである。私たちは「関係性キャプション」（relational captioning）という新しい画像キャプションタスクを導入する。このタスクは、画像内のオブジェクト間の関係性に基づいて複数のキャプションを生成することを目指しており、多様性と情報量において優れたフレームワークである。これにより、関係性に基づいた画像理解が可能となる。品詞（Part-of-Speech, POS、すなわち主語-目的語-述語のカテゴリー）タグは、英語の各単語に割り当てることができる。私たちは、POSを事前知識として活用し、キャプション内の単語の正しい順序をガイドするために利用する。この目的のために、私たちは3つの再帰ユニットから構成され、それぞれのPOSに対する予測とキャプション生成を同時に行うマルチタスク・トリプルストリームネットワーク（Multi-Task Triple-Stream Network, MTTSNet）を提案する。提案したモデルがいくつかのベースラインや競合手法に対してより多様で豊かな表現を生成することを示している。以上が原文に基づく日本語訳です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています