8ヶ月前

オブジェクト追跡

ビデオ処理

コンピュータビジョン

Ho Kei Cheng Yu-Wing Tai Chi-Keung Tang

概要

私たちはモジュール型インタラクティブVOS（MiVOS）フレームワークを提案します。このフレームワークは、インタラクションからマスクへの変換とマスクの伝播を分離することで、より高い汎化能力と優れた性能を実現します。交互に学習されたインタラクションモジュールは、ユーザの操作をオブジェクトマスクに変換し、その後、我々の伝播モジュールは新しいtop- $k$ フィルタリング戦略を使用して空間時間メモリから一時的に伝播させます。ユーザの意図を効果的に反映するために、差異認識モジュールが提案され、各操作前後で適切にマスクを融合する方法を学習します。これにより、対象フレームとの位置合わせが行われます。DAVISデータセット上で異なる形式のユーザ操作（例えば、スケッチやクリック）について定性的および定量的な評価を行い、当手法が現在の最先端アルゴリズムを超える性能を持つことを示しました。さらに、少ないフレーム操作が必要であり、異なるタイプのユーザ操作に対する汎化能力も向上しています。未来の研究を促進するために、480万フレームのピクセル精度セグメンテーションを持つ大規模な合成VOSデータセットとソースコードを提供します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

オブジェクト追跡

ビデオ処理

コンピュータビジョン

Ho Kei Cheng Yu-Wing Tai Chi-Keung Tang

概要

私たちはモジュール型インタラクティブVOS（MiVOS）フレームワークを提案します。このフレームワークは、インタラクションからマスクへの変換とマスクの伝播を分離することで、より高い汎化能力と優れた性能を実現します。交互に学習されたインタラクションモジュールは、ユーザの操作をオブジェクトマスクに変換し、その後、我々の伝播モジュールは新しいtop- $k$ フィルタリング戦略を使用して空間時間メモリから一時的に伝播させます。ユーザの意図を効果的に反映するために、差異認識モジュールが提案され、各操作前後で適切にマスクを融合する方法を学習します。これにより、対象フレームとの位置合わせが行われます。DAVISデータセット上で異なる形式のユーザ操作（例えば、スケッチやクリック）について定性的および定量的な評価を行い、当手法が現在の最先端アルゴリズムを超える性能を持つことを示しました。さらに、少ないフレーム操作が必要であり、異なるタイプのユーザ操作に対する汎化能力も向上しています。未来の研究を促進するために、480万フレームのピクセル精度セグメンテーションを持つ大規模な合成VOSデータセットとソースコードを提供します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています