HyperAI超神経
16日前

理想から現実へ:統一的でデータ効率の高い密集予測の実世界シナリオへの適用

Changliang Xia; Chengyou Jia; Zhuohang Dang; Minnan Luo
理想から現実へ:統一的でデータ効率の高い密集予測の実世界シナリオへの適用
要約

密集予測タスクは、コンピュータビジョンにおいて重要な位置を占めており、入力画像の画素単位でのアノテーションラベルの学習を目指しています。この分野における進歩にもかかわらず、既存の手法は理想的な条件に主に焦点を当てており、実世界シナリオへの汎化能力が限られており、実世界データの希少性という課題に直面しています。この問題を体系的に研究するために、まず DenseWorld(密集ワールド)と呼ばれるベンチマークを導入します。これは、緊急の実世界アプリケーションに対応する25種類の広範な密集予測タスクを網羅し、各タスク間で統一された評価を行います。次に、DenseDiT(密集ディティ)という手法を提案します。これは生成モデルの視覚的な事前知識を最大限に活用し、統一された戦略を通じて多様な実世界密集予測タスクを行うことを目指しています。DenseDiT はパラメータ再利用機構と二つの軽量ブランチを組み合わせており、これらは適応的にマルチスケールコンテキストを統合し、ベースラインよりも0.1%未満の追加パラメータで動作します。DenseWorld 上での評価では、既存の一般的および専門的なベースラインにおいて著しい性能低下が見られ、それらが限られた実世界への汎化能力を持っていることが明らかになりました。一方で、DenseDiT はベースラインの0.01%未満の訓練データを使用して優れた結果を達成しており、その実世界展開における実用的な価値が強調されています。当該データセットおよびチェックポイントとコードは以下のURLから入手可能です: https://xcltql666.github.io/DenseDiTProj注:「xcltql666」はユーザー名であり、「DenseDiTProj」はプロジェクト名です。これらの部分はそのまま保持しました。