HyperAIHyperAI

Command Palette

Search for a command to run...

VLTinT:一貫性のあるビデオパラグラフキャプションのための視覚言語トランスフォーマー・イン・トランスフォーマー

Kashu Yamazaki Khoa Vo Sang Truong Bhiksha Raj Ngan Le

概要

ビデオパラグラフキャプショニングは、時間的に連続しないビデオに対して、複数の時間的イベント位置を含む一貫した物語形式の複数文による記述を生成することを目的としています。人間の知覚プロセスに倣い、視覚(例:人間、動物)と非視覚的要素(例:行動、関係)に分解することでシーンを効果的に理解し、視覚と言語が相互に影響し合う状況を考慮して、本研究では初めて視覚-言語(Visual-Linguistic, VL)特徴を提案します。提案するVL特徴では、シーンを以下の3つのモダリティでモデル化しています:(i) グローバルな視覚的環境、(ii) ローカルな視覚的主体(主なエージェント)、(iii) 言語的シーン要素。次に、ビデオ内のイベント内およびイベント間の内容における意味的整合性を同時に捉えるため、自己回帰型のTransformer-in-Transformer(TinT)を導入します。さらに、学習された埋め込み特徴がキャプションの意味と一致するように保証するため、新たなVL対照損失関数を提示します。ActivityNet CaptionsおよびYouCookIIデータセットにおける包括的な実験と広範なアブレーションスタディの結果、提案手法であるVisual-Linguistic Transformer-in-Transformer(VLTinT)は、精度および多様性の両面で従来の最先端手法を上回ることを示しました。ソースコードは公開されており、以下のURLから入手可能です:https://github.com/UARK-AICV/VLTinT


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています