边界框 Bounding Box

边界框 (Bounding Box) 也称为边界体积或边界区域,是用来描述目标在图像中位置和范围的矩形框。它由矩形框的左上角和右下角坐标定义,可以用来标记和定位目标物体。在目标检测任务中,模型通过预测目标物体的边界框来实现目标检测和定位。边界框的目的是定义 2D 或 3D 空间中对象的位置和大小,并方便地操作和分析对象。

2D 图像中的边界框通常由矩形表示,长边平行于图像的 x 轴和 y 轴。 x 轴和 y 轴的最小值和最大值(由矩形角的坐标指定)决定了矩形的大小。矩形的大小和中心点也可用于创建封闭框。

3D 图像中的边界框通常由平行六面体(3D 矩形)表示,其边平行于图像的 x 、 y 和 z 轴。平行六面体角点的坐标表示 x 、 y 和 z 轴的最小值和最大值,决定了其尺寸。平行六面体的大小和中心也可用于确定边界框。

计算机视觉中的边界框

许多应用程序,例如计算机视觉、图像处理和机器人技术,都使用边界框。边界框在计算机视觉中用于识别和分类图像和视频中的项目。例如,边界框可用于识别图片中的人或对图片中的对象(例如汽车、椅子等)进行分类。

边界框在图像处理中用于裁剪、调整大小和旋转图片中的对象。例如,边界框可用于旋转或裁剪结构或人脸的图片。

与定义数字图像中的对象的其他方法相比,边界框具有多个优点

  • 它们很容易实现和理解;
  • 计算效率高,因为它们只需要角点或中心点的坐标以及边界框的大小;
  • 坚固耐用,因为它们可以处理不同形状和尺寸的物体。

参考来源

【1】https://encord.com/glossary/bounding-box-definition/