6ヶ月前

コンピュータビジョン

セマンティックセグメンテーション

マルチモーダル

マルチモーダル

コンピュータビジョン

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

概要

言語表現を用いた動画オブジェクトセグメンテーション（言語誘導型VOS）の課題とは、与えられた言語表現と動画に対して、その表現が指すオブジェクトの二値マスクを生成することである。本研究では、従来のこのタスクに用いられるベンチマークが主に単純なケースで構成されており、単純な表現によって参照対象を識別可能な場合が多いため、評価の有効性に課題があると指摘する。この分析は、DAVIS-2017およびActor-Actionデータセットに含まれる言語表現を「単純な参照表現（trivial REs）」と「非単純な参照表現（non-trivial REs）」に分類し、非単純な参照表現については7つの意味的カテゴリにラベル付けされた新たな分類体系に基づいている。本研究では、このデータを活用して、言語誘導型画像セグメンテーションにおいて競争力のある性能を示す一方で、言語誘導型VOSにおいて最先端の結果を達成したニューラルネットワーク「RefVOS」の結果を分析した。その結果、このタスクの主な課題は、運動の理解および静的行動の解釈に起因していることが明らかになった。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

セマンティックセグメンテーション

マルチモーダル

マルチモーダル

コンピュータビジョン

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

概要

言語表現を用いた動画オブジェクトセグメンテーション（言語誘導型VOS）の課題とは、与えられた言語表現と動画に対して、その表現が指すオブジェクトの二値マスクを生成することである。本研究では、従来のこのタスクに用いられるベンチマークが主に単純なケースで構成されており、単純な表現によって参照対象を識別可能な場合が多いため、評価の有効性に課題があると指摘する。この分析は、DAVIS-2017およびActor-Actionデータセットに含まれる言語表現を「単純な参照表現（trivial REs）」と「非単純な参照表現（non-trivial REs）」に分類し、非単純な参照表現については7つの意味的カテゴリにラベル付けされた新たな分類体系に基づいている。本研究では、このデータを活用して、言語誘導型画像セグメンテーションにおいて競争力のある性能を示す一方で、言語誘導型VOSにおいて最先端の結果を達成したニューラルネットワーク「RefVOS」の結果を分析した。その結果、このタスクの主な課題は、運動の理解および静的行動の解釈に起因していることが明らかになった。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています