
二値画像セグメンテーション(Dichotomous Image Segmentation: DIS)は、高解像度自然画像に対する高精度なオブジェクトセグメンテーションタスクである。現在の主流手法は、局所的な詳細の最適化に注力しているが、オブジェクトの全体性をモデル化する根本的な課題には十分に配慮していない。本研究では、Depth Anything Model v2が生成する疑似深度マップに内在する深度の整合性事前知識(depth integrity-prior)と、画像パッチの局所的詳細特徴が、上記の課題を共同で解決可能であることを発見した。この知見を基盤として、高精度な二値画像セグメンテーションを実現するための新規なパッチ-深度融合ネットワーク(Patch-Depth Fusion Network: PDFNet)を設計した。PDFNetの核となる構成は以下の3点から成る。第一に、マルチモーダル入力の融合によりオブジェクト認識能力を強化する。パッチの細粒度戦略を採用し、パッチ選択と強化を組み合わせることで、細部への感受性を向上させた。第二に、深度マップに分布する深度の整合性事前知識を活用し、深度マップにおけるセグメンテーション結果の均一性を向上させるための「整合性事前損失(integrity-prior loss)」を提案した。第三に、共有エンコーダの特徴を活用し、シンプルな深度精査デコーダを導入することで、共有エンコーダが画像内の微細な深度関連情報をより効果的に捉える能力を向上させた。DIS-5Kデータセットにおける実験結果から、PDFNetは従来の非拡散型(non-diffusion)手法と比較して顕著な性能向上を達成した。特に、深度の整合性事前知識を組み込むことで、最新の拡散型(diffusion-based)手法と同等、あるいはそれを上回る性能を達成しつつ、そのパラメータ数の11%未満で実現した。本研究のソースコードは以下のURLから公開されている:https://github.com/Tennine2077/PDFNet