7ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Lei Ke; Wenjie Pei; Ruiyu Li; Xiaoyong Shen; Yu-Wing Tai

概要

最先端の画像キャプション生成手法は、主に視覚的な特徴の改善に焦点を当てており、言語の固有特性を利用することでキャプション生成性能を向上させるという点には十分な注意が払われてきませんでした。本論文では、単語間の語彙的一貫性と文の構文パラダイムも、高品質な画像キャプションを生成するために重要であることを示します。従来のエンコーダー-デコーダーフレームワークに従い、我々は画像キャプション生成における長期依存関係と単語位置認識を強化する反射的デコーディングネットワーク（RDN）を提案します。当モデルは視覚的特徴とテキスト特徴の両方に協調的に注目し、同時に各単語が文内で占める相対的な位置を認識することにより、生成されたキャプションで伝達される情報を最大化するように学習します。我々はCOCO画像キャプションデータセット上でRDNの効果を評価し、以前の手法よりも優れた性能を達成しました。さらに実験結果から、当アプローチは複雑なシーンを説明する難易度が高いケースにおいて特に有利であることが明らかになりました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

Lei Ke; Wenjie Pei; Ruiyu Li; Xiaoyong Shen; Yu-Wing Tai

概要

最先端の画像キャプション生成手法は、主に視覚的な特徴の改善に焦点を当てており、言語の固有特性を利用することでキャプション生成性能を向上させるという点には十分な注意が払われてきませんでした。本論文では、単語間の語彙的一貫性と文の構文パラダイムも、高品質な画像キャプションを生成するために重要であることを示します。従来のエンコーダー-デコーダーフレームワークに従い、我々は画像キャプション生成における長期依存関係と単語位置認識を強化する反射的デコーディングネットワーク（RDN）を提案します。当モデルは視覚的特徴とテキスト特徴の両方に協調的に注目し、同時に各単語が文内で占める相対的な位置を認識することにより、生成されたキャプションで伝達される情報を最大化するように学習します。我々はCOCO画像キャプションデータセット上でRDNの効果を評価し、以前の手法よりも優れた性能を達成しました。さらに実験結果から、当アプローチは複雑なシーンを説明する難易度が高いケースにおいて特に有利であることが明らかになりました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています