FishEye8K:魚眼カメラ向け物体検出のためのベンチマークとデータセット

AIの進展に伴い、道路物体検出はコンピュータビジョン分野における注目テーマとなっており、主にパースカメラを用いた手法が主流である。一方、魚眼レンズは少ないカメラ数で道路交差点を全方位的に監視可能な広角カバーを実現できるが、視野歪みが生じるという課題がある。本研究の知見によれば、魚眼カメラを用いた交通監視を目的とした既存のオープンデータセットは存在しない。本論文では、道路物体検出タスクを対象としたオープンな「FishEye8K」ベンチマークデータセットを紹介する。このデータセットは、歩行者、自転車、自動車、バス、トラックの5クラスにわたり、合計157,000個のバウンディングボックスを含む。さらに、YOLOv5、YOLOR、YOLOv7、YOLOv8の各種変種を含む最先端(SoTA)モデルのベンチマーク結果も提示する。データセットは、台湾新竹市における交通監視を目的として、18台の魚眼カメラを用いて22本の動画から収集された8,000枚の画像から構成されており、解像度は1080×1080および1280×1280である。画像のアノテーションと検証プロセスは、超広角パノラマかつ半球状の魚眼画像に伴う著しい歪みと、特にスクーターを運転する人々を含む多数の道路利用者の存在により、極めて困難かつ時間のかかる作業であった。偏りを回避するため、特定のカメラから取得したフレームは訓練セットまたはテストセットのいずれかに割り当てられ、各クラスにおける画像数およびバウンディングボックス数の比率が約70:30となるように配分された。実験結果から、YOLOv8は入力サイズ640×640で、YOLORは1280×1280でそれぞれ優れた性能を発揮した。本データセットは、PASCAL VOC、MS COCO、YOLO形式のアノテーションフォーマットをサポートし、GitHubで公開される予定である。FishEye8Kベンチマークは、魚眼動画解析およびスマートシティ応用分野において、重要な貢献をもたらすものと期待される。