Panoptic-PartFormer: パノプティックパーツセグメンテーションの統一モデルの学習

パノプティック・パート分割(Panoptic Part Segmentation: PPS)は、パノプティック分割とパート分割を一つのタスクに統合することを目指しています。従来の研究では、物体(thing)、背景(stuff)、および部分(part)の予測を個別に行い、共有計算やタスク間の関連性を考慮せずに処理していました。本研究では、これらのタスクをアーキテクチャレベルで統合し、最初のエンドツーペンディな統合手法である「パノプティック・パートフォーマー」(Panoptic-PartFormer) を設計しました。特に、最近のビジョン・トランスフォーマーの進歩に触発され、物体、背景、および部分をオブジェクトクエリとしてモデル化し、これら3つの予測を統一したマスク予測と分類問題として直接最適化する方法を提案しました。私たちはデカップリングされたデコーダーを設計して、それぞれ部分特徴量と物体/背景特徴量を生成します。その後、すべてのクエリと対応する特徴量を利用して共同かつ反復的な推論を行うことを提案しました。最終的なマスクは、クエリと対応する特徴量との内積によって得られます。広範なアブレーションスタディと分析により、私たちのフレームワークの有効性が証明されました。私たちのパノプティック・パートフォーマーは、Cityscapes PPS データセットと Pascal Context PPS データセットにおいて新しい最先端結果を達成しており、少なくとも 70% の GFLOPs と 50% のパラメータ削減を実現しています。特に ResNet50 バックボーンを使用した場合に相対的に 3.4% の改善が見られ、Swin Transformer を採用した後には Pascal Context PPS データセットで 10% の改善が達成されました。当該研究において是我们首次通过统一且端到端的变压器模型解决PPS问题(私たちが初めて統一かつエンドツーペンディなトランスフォーマーモデルを使用して PPS 問題を解決したものです)。その有効性と概念的な簡潔さから、私たちはパノプティック・パートフォーマーが良いベースラインとなり、今後の PPS 統合研究に貢献することを期待しています。コードとモデルは https://github.com/lxtGH/Panoptic-PartFormer で公開されています。注:文中的“当該研究において是我们首次通过统一且端到端的变压器模型解决PPS问题”这一句中包含了中文,已将其翻译为日语并融入上下文中。