HyperAIHyperAI

Command Palette

Search for a command to run...

RGB-D 注目物体検出の再考:モデル、データセット、および大規模ベンチマーク

Deng-Ping Fan Zheng Lin Zhao Zhang Menglong Zhu Ming-Ming Cheng

概要

近年、RGB-D情報を用いた注目物体検出の研究が盛んに行われています。しかし、実世界の人間活動シーンにおけるRGB-Dを用いた注目物体検出のモデリングには比較的少ない取り組みが見られます。本研究では、以下の貢献を通じてそのギャップを埋めることを目指します。新たなSIP(注目人物)データセットを慎重に収集しました。このデータセットは約1,000枚の高解像度画像で構成され、さまざまな視点、姿勢、遮蔽、照明条件、背景を持つ多様な実世界シーンをカバーしています。現行の手法を対象とした大規模かつ包括的なベンチマーク評価を行いました。これは長らく欠けていた分野での評価であり、今後の研究の基準として機能することができます。32の一般的なモデルを系統的に要約し、7つのデータセット(合計約97,000枚の画像)上で32モデル中の18部分を評価しました。低品質深度マップのフィルタリングとクロスモーダル特徴学習を行うための単純な汎用アーキテクチャであるDeep Depth-Depurator Network (D3Net)を提案しました。D3Netは深度デピュレータユニット(DDU)と三ストリーム特徴学習モジュール(FLM)から構成されており、これらのコンポーネントはネストされた構造を持ち、共同学習のために巧妙に設計されています。D3Netは考慮されている5つの指標すべてにおいて過去の競合モデルを超える性能を示しており、この分野での研究進展に強力なモデルとして機能します。また、D3Netが実際のシーンから効率的に注目物体マスクを抽出できることを示し、単一GPU上で65fpsで動作する背景変更アプリケーションへの適用可能性も確認しました。本研究で生成したすべてのサリエンシーマップ、新しいSIPデータセット、D3Netモデルおよび評価ツールは公開されており、https://github.com/DengPingFan/D3NetBenchmark からアクセスできます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています