HyperAIHyperAI

Command Palette

Search for a command to run...

テキストベースのビデオセグメンテーションのための視覚的・テキスト的カプセルルーティング

Mubarak Shah Yogesh S Rawat Kevin Duarte Bruce McIntosh

概要

視覚と自然言語の統合的理解は、人工知能分野において広範な応用を持つ挑戦的な問題である。本研究では、文章によるクエリに基づいて、動画中の人物(アクター)および行動(アクション)のセグメンテーションを行うタスクに注目し、動画とテキストの統合を実現する手法を提案する。我々は、対象となる人物を自然言語で記述したクエリに基づいて、画素単位での局所化を実現するキャプセルベースのアプローチを提案する。動画およびテキスト入力をともにキャプセル形式で符号化することで、従来の畳み込みベースの特徴表現に比べ、より効果的な表現を可能にする。また、本研究では、視覚とテキストのキャプセルを融合するための新規な視覚-言語ルーティング機構を設計し、人物および行動の正確な局所化を実現した。既存の人物-行動局所化研究は、主に単一フレーム内の局所化に焦点を当てているが、本研究では動画全体のすべてのフレームに対して局所化を実行することを提案する。本手法の有効性を検証するため、既存の人物-行動データセット(A2D)を拡張し、全フレームに対するアノテーションを追加した。実験評価の結果、本手法が動画内のテキスト選択的人物・行動局所化において高い効果を発揮することが示された。さらに、単一フレームに基づく既存の最先端手法に対しても、性能の向上が確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています