8ヶ月前

ビデオ理解

セマンティックセグメンテーション

コンピュータビジョン

Siyuan Qiao; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen

概要

本論文では、ViP-DeepLabという統一モデルを提案し、視覚における longstanding かつ困難な逆投影問題に取り組むことを目指しています。この問題は、パースペクティブ画像シーケンスから点群を復元するとともに、各点に対してインスタンスレベルの意味解釈を与えるものとしてモデル化されます。この問題を解決するには、視覚モデルが各3D点の空間位置、意味クラス、および時間的に一貫したインスタンスラベルを予測する必要があります。ViP-DeepLabは単眼深度推定とビデオパノプティックセグメンテーションを同時に行うことでこの課題にアプローチします。私たちはこの統合タスクをDepth-aware Video Panoptic Segmentation（深度認識ビデオパノプティックセグメンテーション）と名付け、その評価指標として新しいメトリクスを提案し、2つの派生データセットも提供します。これらのデータセットと評価コードは公開されます。個別のサブタスクにおいても、ViP-DeepLabは最先端の結果を達成しており、Cityscapes-VPSで5.1% VPQ（Video Panoptic Quality）の改善を示し、KITTI単眼深度推定ベンチマークで1位となり、またKITTI MOTS歩行者検出でも1位となっています。これらのデータセットと評価コードは公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

セマンティックセグメンテーション

コンピュータビジョン

Siyuan Qiao; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen

概要

本論文では、ViP-DeepLabという統一モデルを提案し、視覚における longstanding かつ困難な逆投影問題に取り組むことを目指しています。この問題は、パースペクティブ画像シーケンスから点群を復元するとともに、各点に対してインスタンスレベルの意味解釈を与えるものとしてモデル化されます。この問題を解決するには、視覚モデルが各3D点の空間位置、意味クラス、および時間的に一貫したインスタンスラベルを予測する必要があります。ViP-DeepLabは単眼深度推定とビデオパノプティックセグメンテーションを同時に行うことでこの課題にアプローチします。私たちはこの統合タスクをDepth-aware Video Panoptic Segmentation（深度認識ビデオパノプティックセグメンテーション）と名付け、その評価指標として新しいメトリクスを提案し、2つの派生データセットも提供します。これらのデータセットと評価コードは公開されます。個別のサブタスクにおいても、ViP-DeepLabは最先端の結果を達成しており、Cityscapes-VPSで5.1% VPQ（Video Panoptic Quality）の改善を示し、KITTI単眼深度推定ベンチマークで1位となり、またKITTI MOTS歩行者検出でも1位となっています。これらのデータセットと評価コードは公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ViP-DeepLab: 深度認識を用いたビデオパノプティックセグメンテーションによる視覚認識の学習 | 記事 | HyperAI超神経