2ヶ月前
YOLOv7: Trainable bag-of-freebiesがリアルタイムオブジェクト検出器の新規最先端を樹立
Chien-Yao Wang; Alexey Bochkovskiy; Hong-Yuan Mark Liao

要約
YOLOv7は、5 FPSから160 FPSの範囲で速度と精度の両面において既知のすべての物体検出器を上回り、GPU V100上で30 FPS以上のすべての既知のリアルタイム物体検出器の中で最高の精度56.8% APを達成しています。YOLOv7-E6物体検出器(V100で56 FPS、55.9% AP)は、トランスフォーマーに基づく検出器SWIN-L Cascade-Mask R-CNN(A100で9.2 FPS、53.9% AP)よりも速度で509%、精度で2%上回り、また畳み込みに基づく検出器ConvNeXt-XL Cascade-Mask R-CNN(A100で8.6 FPS、55.2% AP)よりも速度で551%、精度で0.7% AP上回っています。さらに、YOLOv7はYOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-Bなど多くの他の物体検出器よりも速度と精度で優れています。また、YOLOv7はMS COCOデータセットのみを使用し、他のデータセットや事前学習済みの重みを使わずにゼロから訓練されています。ソースコードはhttps://github.com/WongKinYiu/yolov7にて公開されています。