6ヶ月前

Video Captioning

ビデオ処理

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Zohreh Ghaderi Leonard Salewski Hendrik P. A. Lensch

概要

動画の適切なキャプションを生成するためには、推論プロセスが関連する概念を特定し、それらの空間的関係および動画クリップ内の時間的展開に注目する必要があります。本研究では、エンドツーエンドのエンコーダデコーダ型動画キャプション生成フレームワークとして、単一の統合的時空間動画解析に適応したTransformerアーキテクチャと、自己注意機構に基づく高精度なテキスト生成を実現するデコーダを組み合わせた構成を提案します。さらに、両方のTransformerを訓練する際、必要な入力フレーム数を削減しつつも、関連するコンテンツを維持するための適応型フレーム選択スキームを導入しています。また、各サンプルのすべての正解キャプションを統合することで、動画キャプション生成に有用な意味的コンセプトを推定しています。本手法は、MSVDおよび大規模なMSR-VTT、VATEXベンチマークデータセットにおいて、複数の自然言語生成（NLG）評価指標を考慮して、最先端の性能を達成しています。さらに、多様性スコアを用いた追加評価により、生成されたキャプションの構造的表現力および多様性の高さが示されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

Video Captioning

ビデオ処理

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Zohreh Ghaderi Leonard Salewski Hendrik P. A. Lensch

概要

動画の適切なキャプションを生成するためには、推論プロセスが関連する概念を特定し、それらの空間的関係および動画クリップ内の時間的展開に注目する必要があります。本研究では、エンドツーエンドのエンコーダデコーダ型動画キャプション生成フレームワークとして、単一の統合的時空間動画解析に適応したTransformerアーキテクチャと、自己注意機構に基づく高精度なテキスト生成を実現するデコーダを組み合わせた構成を提案します。さらに、両方のTransformerを訓練する際、必要な入力フレーム数を削減しつつも、関連するコンテンツを維持するための適応型フレーム選択スキームを導入しています。また、各サンプルのすべての正解キャプションを統合することで、動画キャプション生成に有用な意味的コンセプトを推定しています。本手法は、MSVDおよび大規模なMSR-VTT、VATEXベンチマークデータセットにおいて、複数の自然言語生成（NLG）評価指標を考慮して、最先端の性能を達成しています。さらに、多様性スコアを用いた追加評価により、生成されたキャプションの構造的表現力および多様性の高さが示されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています