HyperAIHyperAI

Command Palette

Search for a command to run...

PolyphonicFormer: 深度認識ビデオパノプティックセグメンテーションの統一クエリ学習

Haobo Yuan Xiangtai Li Yibo Yang Guangliang Cheng Jing Zhang Yunhai Tong Lefei Zhang Dacheng Tao

概要

深度認識ビデオパノプティックセグメンテーション(DVPS)は、ビデオ内でパノプティックセグメンテーションと深さを同時に予測することを目指す新しい挑戦的な視覚問題です。従来の研究では、既存のパノプティックセグメンテーション手法に追加の密集した深さ予測とインスタンストラッキングヘッドを組み込むことでこの課題に対処していました。しかし、深さとパノプティックセグメンテーションの関係は十分に探究されておらず、単純に既存の手法を組み合わせると競合が生じ、重みバランスを慎重に調整する必要があります。本論文では、これらのサブタスクをDVPSタスクのもとに統一し、より堅牢な結果を得るためのビジョントランスフォーマーであるPolyphonicFormerを提案します。私たちの主な洞察は、物体クエリを使用してインスタンスレベルの深さマップを予測するという新規範式により、深さがパノプティックセグメンテーションと調和できるということです。その後、クエリベース学習を通じて両者の関係性を探求します。実験から、私たちの設計が深さ推定およびパノプティックセグメンテーション両面で利点があることを示しています。各物体クエリがインスタンスごとの情報をエンコードしているため、外観学習によって直接トラッキングを行うことが自然です。当方法は2つのDVPSデータセット(Semantic KITTI, Cityscapes)において最先端の結果を達成しており、ICCV-2021 BMTTチャレンジのビデオ+深さトラックで1位となっています。コードはhttps://github.com/HarborYuan/PolyphonicFormer で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
PolyphonicFormer: 深度認識ビデオパノプティックセグメンテーションの統一クエリ学習 | 記事 | HyperAI超神経