HyperAIHyperAI

Command Palette

Search for a command to run...

VLCap:コントラスト学習を用いた視覚言語モデルによる一貫性のあるビデオパラグラフキャプション生成

Kashu Yamazaki Sang Truong Khoa Vo Michael Kidd Chase Rainwater Khoa Luu Ngan Le

概要

本稿では、視覚と言語の相互作用を含む人間の知覚プロセスを活用し、トリムされていない動画に対して一貫性のある段落レベルの記述を生成する手法を提案する。我々は、二つのモダリティから構成される視覚言語(VL)特徴を提案する。すなわち、(i) 全体シーンのグローバルな視覚的コンテンツを捉える視覚モダリティと、(ii) 人間および非人間の物体(例:動物、車両など)のシーン要素の記述、および視覚的・非視覚的要素(例:関係性、行動など)を抽出する言語モダリティである。さらに、提案するVLCapモデルを、対照的学習に基づくVL損失関数を用いて学習することを提案する。ActivityNet CaptionsおよびYouCookIIデータセットにおける実験およびアブレーションスタディの結果、本手法は既存の最先端(SOTA)手法と比較して、精度および多様性の両面で優れた性能を発揮することが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています