HyperAIHyperAI

Command Palette

Search for a command to run...

動画要約における位置符号化を用いたグローバルおよびローカルアテンションの統合

Ioannis Patras Vasileios Mezaris Georgios Balaouras Evlampios Apostolidis

概要

本稿では、教師あり動画要約のための新しい手法を提案する。従来のRNNベースの要約アーキテクチャには、長距離のフレーム間依存関係のモデリングの難しさおよび学習プロセスの並列化の困難さといった課題が存在するが、本研究で開発されたモデルは、自己注意(self-attention)機構を用いて動画フレームの重要度を推定することで、これらの課題を克服する。従来の注意機構に基づく要約手法が、すべてのフレームシーケンスを観察することでフレーム間の依存関係をモデリングしていたのに対し、本手法は、グローバルかつローカルなマルチヘッド注意機構を組み合わせることで、異なる粒度レベルにおけるフレーム間依存関係の多様なモデリングを可能にしている。さらに、採用した注意機構には、動画フレームの時系列的位置情報を符号化するコンポーネントが統合されており、これは動画要約生成において極めて重要な要素である。SumMeおよびTVSumの2つのデータセットを用いた実験により、提案モデルが既存の注意機構ベースの手法と比較して有効性を示すとともに、他の最先端の教師あり要約手法と比較しても競争力を持つことが確認された。本研究の主な提案要素、すなわちグローバル・ローカルなマルチヘッド注意機構と絶対的位置符号化(absolute positional encoding)コンポーネントの協調運用に焦点を当てたアブレーションスタディから、各要素が全体の要約性能に及ぼす相対的な寄与が明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
動画要約における位置符号化を用いたグローバルおよびローカルアテンションの統合 | 記事 | HyperAI超神経