6ヶ月前

マルチモーダル

畳み込みニューラルネットワーク

アプローチ／フレームワーク

マルチモーダル

Mohammad Faiyaz Khan S.M. Sadiq-Ur-Rahman Shifath Md. Saiful Islam

概要

画像キャプション生成は、画像の文脈に即した構文的にも意味的にも正しい自然言語によるテキスト記述を生成する困難なタスクである。ベンガル語画像キャプション（BIC）に関する既存の主要な研究は、エンコーダ-デコーダアーキテクチャに基づいている。本研究では、一変数畳み込みニューラルネットワーク（CNN）を用いて系列情報をエンコードし、事前に学習されたResNet-50モデルを画像エンコーダとして用いて領域ベースの視覚的特徴を抽出するマルチモーダルアーキテクチャを統合したエンドツーエンド型の画像キャプション生成システムを提案する。我々は、BanglaLekhaImageCaptionsデータセット上で既存の評価指標を用いて提案手法の性能を検証するとともに、定性的分析のために人間評価も実施した。実験の結果、本手法の言語エンコーダがキャプション内の微細な情報を効果的に捉え、視覚的特徴と組み合わせることで、正確かつ多様なキャプション生成が可能であることが示された。本研究は、既存のすべてのBIC手法を上回り、BLUE-1で0.651、CIDErで0.572、METEORで0.297、ROUGEで0.434、SPICEで0.357というスコアを達成し、新たな最先端（SOTA）性能を実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

畳み込みニューラルネットワーク

アプローチ／フレームワーク

マルチモーダル

Mohammad Faiyaz Khan S.M. Sadiq-Ur-Rahman Shifath Md. Saiful Islam

概要

画像キャプション生成は、画像の文脈に即した構文的にも意味的にも正しい自然言語によるテキスト記述を生成する困難なタスクである。ベンガル語画像キャプション（BIC）に関する既存の主要な研究は、エンコーダ-デコーダアーキテクチャに基づいている。本研究では、一変数畳み込みニューラルネットワーク（CNN）を用いて系列情報をエンコードし、事前に学習されたResNet-50モデルを画像エンコーダとして用いて領域ベースの視覚的特徴を抽出するマルチモーダルアーキテクチャを統合したエンドツーエンド型の画像キャプション生成システムを提案する。我々は、BanglaLekhaImageCaptionsデータセット上で既存の評価指標を用いて提案手法の性能を検証するとともに、定性的分析のために人間評価も実施した。実験の結果、本手法の言語エンコーダがキャプション内の微細な情報を効果的に捉え、視覚的特徴と組み合わせることで、正確かつ多様なキャプション生成が可能であることが示された。本研究は、既存のすべてのBIC手法を上回り、BLUE-1で0.651、CIDErで0.572、METEORで0.297、ROUGEで0.434、SPICEで0.357というスコアを達成し、新たな最先端（SOTA）性能を実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています