HyperAIHyperAI

Command Palette

Search for a command to run...

多コンテキスト時系列一貫性モデリングによる指し示しビデオオブジェクトセグメンテーション

Choi

概要

参照動画オブジェクトセグメンテーションは、与えられたテキスト記述に対応する動画内のオブジェクトをセグメントすることを目指しています。既存のトランスフォーマーに基づく時間的モデリング手法は、クエリの一貫性不足とコンテクストの考慮が限られているという課題に直面しています。クエリの一貫性不足は、動画の中盤で異なるオブジェクトの不安定なマスクを生成します。コンテクストの考慮が限られているため、与えられたテキストとインスタンス間の関係を適切に考慮できない場合、誤ったオブジェクトがセグメントされます。これらの問題を解決するために、私たちはマルチコンテクスト時間的一貫性モジュール(Multi-context Temporal Consistency Module, MTCM)を提案します。MTCMはアライナとマルチコンテクストエンハンサー(Multi-Context Enhancer, MCE)から構成されています。アライナはクエリからのノイズを取り除き、それらを整列してクエリの一貫性を達成します。MCEは複数のコンテクストを考慮することで、テキストに関連するクエリを予測します。私たちはMTCMを4つの異なるモデルに適用し、すべてのモデルにおいて性能向上が見られました。特にMeViSデータセットでは47.6 J&Fのスコアを達成しました。コードはhttps://github.com/Choi58/MTCM で利用可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています