視界内の船:船画像のスーパーレゾリューションにおける拡散モデル

近年、画像生成分野では、インペイント、ノイズ除去、スーパーレゾリューションなど、さまざまなサブタスクにおいて高品質な出力が求められる背景から、顕著な進展が見られている。特に、低解像度画像の品質向上を目的としたスーパーレゾリューション技術の応用に向けた研究が盛んに行われている。本研究では、沿岸および港湾監視において重要な役割を果たす船舶画像のスーパーレゾリューション問題に焦点を当て、その深層的な検討を行った。近年注目が集まるテキストから画像を生成する拡散モデル(text-to-image diffusion models)の発展を背景に、こうした基礎モデルが事前に学習済みのPrior知識を活用する可能性を考察した。特に、学習段階でテキスト条件付け(text conditioning)を導入しつつ、クラスに敏感な(class-aware)アーキテクチャを提案することで、生成されるスーパーレゾリューション画像において船舶の重要な細部を最大限に保持することを目指した。本タスクの特異性および既存の汎用データの不足に鑑み、主にShipSpotting(\url{www.shipspotting.com})ウェブサイトから収集した大規模なラベル付き船舶画像データセットを構築した。複数の実験により、従来の深層学習モデルと比較して、本手法がより堅牢な結果を達成することが実証された。さらに、本モデルが分類や物体検出といった下流タスクにどのように貢献できるかについても検証し、実世界における実用性の重要性を強調した。実験結果から、提案フレームワークがさまざまなタスクにおいて、最先端手法と比較しても高い柔軟性、信頼性および優れた性能を示すことが明らかになった。コードは以下のリンクから公開されている:https://github.com/LuigiSigillo/ShipinSight