6ヶ月前

ビデオ理解

セマンティックセグメンテーション

マルチモーダル

マルチモーダル

コンピュータビジョン

Yi Yang Fan Ma Cheng Deng Hao Wang

概要

言語クエリを用いたアクトルおよびアクション動画セグメンテーションは、動画内における指定された対象物の表現を抽出することを目的としている。このプロセスには包括的な言語推論と細粒度な動画理解が求められる。従来の手法は主に動的畳み込みネットワークを活用して視覚的表現と意味的表現をマッチングさせている。しかし、動的畳み込みはフレーム内の各領域を処理する際に空間的文脈を無視するため、複雑な状況下で類似の対象物を正確にセグメンテーションすることが困難である。このような課題を解決するため、本研究では文脈調節型動的畳み込みネットワークを構築した。具体的には、提案フレームワーク内に文脈調節型動的畳み込み演算を導入した。この演算では、特定領域に対するカーネルが、言語文と周辺の文脈特徴の両方から生成される。さらに、視覚特徴に動き情報を統合するための時系列エンコーダを設計し、クエリ記述とのより良いマッチングを実現した。A2Dセンテンス（Actor-Action Dataset Sentences）およびJ-HMDBセンテンスという2つのベンチマークデータセットにおける広範な実験結果から、本手法が最先端手法を顕著に上回ることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ理解

セマンティックセグメンテーション

マルチモーダル

マルチモーダル

コンピュータビジョン

Yi Yang Fan Ma Cheng Deng Hao Wang

概要

言語クエリを用いたアクトルおよびアクション動画セグメンテーションは、動画内における指定された対象物の表現を抽出することを目的としている。このプロセスには包括的な言語推論と細粒度な動画理解が求められる。従来の手法は主に動的畳み込みネットワークを活用して視覚的表現と意味的表現をマッチングさせている。しかし、動的畳み込みはフレーム内の各領域を処理する際に空間的文脈を無視するため、複雑な状況下で類似の対象物を正確にセグメンテーションすることが困難である。このような課題を解決するため、本研究では文脈調節型動的畳み込みネットワークを構築した。具体的には、提案フレームワーク内に文脈調節型動的畳み込み演算を導入した。この演算では、特定領域に対するカーネルが、言語文と周辺の文脈特徴の両方から生成される。さらに、視覚特徴に動き情報を統合するための時系列エンコーダを設計し、クエリ記述とのより良いマッチングを実現した。A2Dセンテンス（Actor-Action Dataset Sentences）およびJ-HMDBセンテンスという2つのベンチマークデータセットにおける広範な実験結果から、本手法が最先端手法を顕著に上回ることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています