7ヶ月前

畳み込みニューラルネットワーク

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

MARCELLA CORNIA LORENZO BARALDI GIUSEPPE SERRA RITA CUCCHIARA

概要

画像キャプション生成は、深層キャプションアーキテクチャによる印象的な成果により、最近注目を集めています。これらのアーキテクチャは、画像表現を抽出する畳み込みニューラルネットワーク（CNN）と、対応するキャプションを生成する再帰型ニューラルネットワーク（RNN）を組み合わせています。同時に、視覚的注目度予測モデルの開発にも多くの研究が費やされており、これらのモデルは人間の視線位置を予測することができます。しかし、注目度情報が画像キャプション生成アーキテクチャに有用である可能性があるにもかかわらず、つまり注目すべき部分とそうでない部分の指標を提供できるにもかかわらず、これらの2つの技術を組み込む研究はまだ難航しています。本研究では、視覚的注目度予測モデルによって画像のどの部分が注目すべきで、どの部分が文脈的なものであるかという条件付けを利用し、異なる入力画像の部分に焦点を当てる生成再帰型ニューラルネットワークを使用した画像キャプション生成手法を提案します。大規模データセットにおける広範な定量的および定性的実験を通じて示すように、我々のモデルは注目度情報を使用した場合と使用しない場合の基準となるキャプション生成手法だけでなく、注目度とキャプション生成を組み合わせた異なる最先端アプローチよりも優れた性能を達成しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

畳み込みニューラルネットワーク

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

MARCELLA CORNIA LORENZO BARALDI GIUSEPPE SERRA RITA CUCCHIARA

概要

画像キャプション生成は、深層キャプションアーキテクチャによる印象的な成果により、最近注目を集めています。これらのアーキテクチャは、画像表現を抽出する畳み込みニューラルネットワーク（CNN）と、対応するキャプションを生成する再帰型ニューラルネットワーク（RNN）を組み合わせています。同時に、視覚的注目度予測モデルの開発にも多くの研究が費やされており、これらのモデルは人間の視線位置を予測することができます。しかし、注目度情報が画像キャプション生成アーキテクチャに有用である可能性があるにもかかわらず、つまり注目すべき部分とそうでない部分の指標を提供できるにもかかわらず、これらの2つの技術を組み込む研究はまだ難航しています。本研究では、視覚的注目度予測モデルによって画像のどの部分が注目すべきで、どの部分が文脈的なものであるかという条件付けを利用し、異なる入力画像の部分に焦点を当てる生成再帰型ニューラルネットワークを使用した画像キャプション生成手法を提案します。大規模データセットにおける広範な定量的および定性的実験を通じて示すように、我々のモデルは注目度情報を使用した場合と使用しない場合の基準となるキャプション生成手法だけでなく、注目度とキャプション生成を組み合わせた異なる最先端アプローチよりも優れた性能を達成しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

注目度にさらに焦点を当てる：注目度と文脈の注意を使用した画像キャプション生成 | 記事 | HyperAI超神経