Discordで議論

10ヶ月前

ビデオ理解

セマンティックセグメンテーション

マルチモーダル

Joon-Young Lee Seonguk Seo Bohyung Han

概要

本稿では、統一的な参照動画オブジェクトセグメンテーションネットワーク（URVOS）を提案する。URVOSは、動画と参照表現（referring expression）を入力として受け取り、与えられた言語表現によって指されるオブジェクトのマスクを、動画全体のフレームにわたって推定する。本手法は、適切に組み合わせられた2つのアテンションモデルを用いた単一の深層ニューラルネットワークを活用し、言語に基づくオブジェクトセグメンテーションとマスク伝搬を統合的に処理することにより、困難な課題に取り組む。さらに、本研究では、初めてとなる大規模な参照動画オブジェクトセグメンテーションデータセット「Refer-Youtube-VOS」を構築した。我々は、自ら構築したデータセットを含む2つのベンチマークデータセット上でモデルを評価し、提案手法の有効性を実証した。データセットは、https://github.com/skynbe/Refer-Youtube-VOS にて公開されている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Discordで議論

10ヶ月前

ビデオ理解

セマンティックセグメンテーション

マルチモーダル

Joon-Young Lee Seonguk Seo Bohyung Han

概要

本稿では、統一的な参照動画オブジェクトセグメンテーションネットワーク（URVOS）を提案する。URVOSは、動画と参照表現（referring expression）を入力として受け取り、与えられた言語表現によって指されるオブジェクトのマスクを、動画全体のフレームにわたって推定する。本手法は、適切に組み合わせられた2つのアテンションモデルを用いた単一の深層ニューラルネットワークを活用し、言語に基づくオブジェクトセグメンテーションとマスク伝搬を統合的に処理することにより、困難な課題に取り組む。さらに、本研究では、初めてとなる大規模な参照動画オブジェクトセグメンテーションデータセット「Refer-Youtube-VOS」を構築した。我々は、自ら構築したデータセットを含む2つのベンチマークデータセット上でモデルを評価し、提案手法の有効性を実証した。データセットは、https://github.com/skynbe/Refer-Youtube-VOS にて公開されている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています