概要

物体検出はコンピュータビジョンにおいて重要な課題であり、その難易度も高い。過去10年間で自然環境における物体検出に大きな進展が見られましたが、航空画像への適用は遅れています。これは、地球表面の物体インスタンスのスケール、向き、形状の大きな変動だけでなく、航空シーンでの良質なアノテーションデータセットの不足によるものです。地球ビジョン（Earth Vision）、すなわち地球観測およびリモートセンシングにおける物体検出研究を推進するため、大規模な航空画像用物体検出データセット（Dataset for Object deTection in Aerial images: DOTA）を紹介します。この目的のために、異なるセンサとプラットフォームから2806枚の航空画像を集めました。各画像は約4000×4000ピクセルのサイズで、多様なスケール、向き、形状を持つ物体が含まれています。これらのDOTA画像は、航空画像解釈の専門家によって15種類の一般的な物体カテゴリを使用してアノテーションされました。完全にアノテーションされたDOTA画像には188,282つのインスタンスが含まれており、それぞれが任意の（8自由度）四角形でラベリングされています。地球ビジョンにおける物体検出の基準を構築するために、最先端の物体検出アルゴリズムをDOTA上で評価しました。実験結果は、DOTAが実際の地球ビジョン応用をよく表現しており、非常に挑戦的なデータセットであることを示しています。

ソースPDF