2 个月前

Yahui Liu Lian Yao Xiaohu Lu Renping Xie Li Li

摘要

从各种场景的图像中自动检测裂缝是一项实用且具有挑战性的任务。在本文中，我们提出了一种名为 DeepCrack 的深度层次卷积神经网络（CNN），采用端到端的方式预测像素级裂缝分割。DeepCrack 结合了扩展的全卷积网络（FCN）和深度监督网络（DSN）。在训练过程中，精心设计的模型从低层卷积层到高层卷积层学习并聚合多尺度、多层次的特征，这与仅使用最后一个卷积层的标准方法不同。DSN 为每个卷积阶段的特征提供综合的直接监督。我们应用引导滤波和条件随机场（CRFs）方法来优化最终预测结果。构建了一个由 537 张带有手动标注地图的图像组成的基准数据集，以验证我们提出的方法的有效性。该方法在我们的基准数据集上达到了最先进的性能（平均 I/U 为 85）。

一句话总结

作者提出了 DeepCrack，一种深度分层卷积神经网络，结合了扩展的全卷积网络（Fully Convolutional Networks）和深度监督网络（Deeply-Supervised Nets），用于端到端像素级裂缝分割，该网络聚合所有卷积阶段的多尺度特征并进行直接监督，并使用引导滤波和条件随机场（Conditional Random Fields）细化最终预测结果，在包含 537 张手动标注图像的基准数据集上实现了最先进的性能。

核心贡献

DeepCrack 是一种深度分层卷积神经网络，聚合从低到高层卷积层的多尺度和多级特征，用于端到端像素级分割。
深度监督网络（Deeply-Supervised Nets）提供集成的直接监督，而引导滤波和条件随机场（Conditional Random Fields）细化最终预测结果。
建立了一个由 537 张手动标注图像组成的公开基准数据集用于评估系统，该方法在此数据集上取得了最先进的性能，平均 I/U 为 85。

引言

自动裂缝检测对于确保基础设施的安全性和耐久性至关重要，然而传统的计算机视觉方法往往无法在不同的场景和噪声条件下泛化。现有的深度学习方法经常缺乏准确分割所需的像素级精度，或者依赖于传播错误的分离机制。为了应对这些挑战，作者介绍了 DeepCrack，这是一种深度分层卷积神经网络，旨在从所有卷积层而不仅仅是最终输出中学习并聚合多尺度特征。该架构采用深度监督网络（Deeply-Supervised Nets）进行集成的直接监督，并使用引导滤波和条件随机场（Conditional Random Fields）细化结果。此外，研究人员创建了一个带有手动标注的开放基准数据集，以便对裂缝检测系统进行严格评估。

数据集

数据集组成和来源
- 作者建立了一个新的开放基准数据库，包含 537 张带有手动标注的 RGB 彩色图像。
- 引用了另一个公开基准 [48] 用于评估细裂缝检测能力。
子集详情
- 主数据库将图像分为 300 张用于训练，237 张用于测试。
- 主数据库中的所有图像共享 544 乘 384 像素的固定尺寸。
- 外部基准包含少于 40 张标注图像，专注于 2 到 5 像素宽的裂缝。
标注和处理
- 真值以像素级分割掩码的形式提供，精确覆盖裂缝区域。
- 标注人员通过查看二值图像生成掩码，以确保分割精度。
- 数据集涵盖多种纹理，包括沥青和混凝土场景中的裸露、粗糙和脏污表面。
- 裂缝宽度变化显著，从 1 到 180 像素不等，以挑战分割模型。
在模型开发中的用途
- 主要数据集作为训练和测试所提出的深度学习方法的基础。
- 外部数据集评估在细裂缝上的性能，通常需要传统的后处理。

方法

作者将裂缝分割 formulate 为二值图像标记问题，其中网络为裂缝像素分配标签"0"表示非裂缝，"1"表示裂缝。为了同时满足高层语义特征和低级空间线索的要求，所提出的架构聚合来自多个层级的分层特征。整体框架如下图所示，展示了从输入 RGB 图像通过卷积主干到最终分割输出的流程。

网络的核心利用 VGG-16 架构的前 13 个卷积层，该架构专为对象分类设计。然而，全连接层和第五个池化层被丢弃。这一设计选择旨在保留有意义的侧输出的空间分辨率并降低计算强度。每个卷积层由卷积操作、用于减少内部协变量偏移的批量归一化（batch normalization）和修正线性单元（ReLU）激活函数组成。空间池化使用四个 $2 \times 2$ 滤波器且步长为 2 的最大池化层执行，跟随特定的卷积阶段以实现平移不变性并减少参数大小。

下一图提供了层配置和操作的详细视图，突出了特定的核大小、步长以及批量归一化的集成。

为了利用不同尺度的特征，作者通过插入侧输出层采用深度监督策略。这些层是 1x1 卷积层，在网络的不同深度产生预测图。除了第一个侧输出层外，随后的侧输出后跟反卷积层，将特征图上采样到输入图像的大小。然后连接这些上采样的特征图以形成最终融合特征。生成这些侧输出及其后续融合的过程可视化如下。

最终融合预测使用引导滤波模块进行细化。该技术解决了不同卷积阶段中发现的边界保持与噪声抵抗之间的权衡。低级阶段很好地保持边界但对噪声敏感，而深层阶段对噪声鲁棒但缺乏边界细节。引导滤波器使用第一个侧输出作为引导图来细化融合预测，有效去除噪声同时保留裂缝区域。该方法被认为比基于条件随机场（CRF）的方法更快且更高效。

关于训练过程，模型使用加权交叉熵损失函数以端到端方式训练。深度监督应用于每个侧输出层以学习有意义的特征。总损失函数 $\mathcal{L}$ 由侧输出损失 $\mathcal{L}_{\mathrm{side}}$ 和融合损失 $\mathcal{L}_{\mathrm{fuse}}$ 组成。鉴于非裂缝像素显著多于裂缝像素的类别不平衡，应用类别平衡权重 $w_0$ 和 $w_1$ 。具体而言， $w_0$ 设为负像素的 1.0， $w_1$ 设为训练集中负像素与正像素的比率，以防止训练饱和。总体损失公式化为：

$\mathcal{L} = \mathcal{L}_{\mathrm{side}}(\mathbf{I}, \mathbf{G}, \mathbf{W}, \mathbf{w}) + \mathcal{L}_{\mathrm{fuse}}(\mathbf{I}, \mathbf{G}, \mathbf{W})$

其中 $\mathbf{I}$ 代表输入图像， $\mathbf{G}$ 是真值， $\mathbf{W}$ 表示网络参数。该公式确保网络最小化所有监督级别上最终预测与真值之间的差异。

实验

评估将六种 DeepCrack 网络策略与四种基线方法进行比较，使用自定义基准评估裂缝分割效果。结果表明，所提出的架构通过有效捕捉细裂缝和宽裂缝而不依赖预训练模型，显著优于传统和基于边缘的检测器。定性发现表明，批量归一化减少过拟合，而引导滤波提供比条件随机场更有效的细化，最终在外部数据集上产生更清晰的边界和鲁棒的泛化能力。

下表比较了 DeepCrack-GF 模型的各个侧输出、融合结果和细化结果的性能指标。性能趋势表明，中层通常比低级或高级层产生更好的结果，而融合和细化策略显著提高了整体准确率和 F-score。中层侧输出在大多数指标上优于低级和高级层。融合分层特征比单个侧输出带来更好的性能。细化结果实现了最高的全局准确率和 F-score。

提供的表详细说明了训练、测试和总数据集中裂缝和非裂缝像素的分布。它表明了显著的类别不平衡，其中非裂缝像素在所有类别中远远多于裂缝像素。非裂缝像素占数据的绝大多数。测试集包含相对更高比例的裂缝像素，与训练集相比。整体数据集保持有利于非裂缝区域的一致不平衡。

作者使用自定义基准数据库评估其提出的 DeepCrack 网络变体与几种基线方法。结果显示，添加批量归一化和数据增强显著提升了性能，增强模型实现了最高的 F-score 和召回率。虽然 CRF 和引导滤波等后处理技术提高了精度，但与计算量更大的 CRF 方法相比，引导滤波变体在准确性和推理时间之间提供了更有效的权衡。DeepCrack-Aug 变体在 F-score 和召回率方面优于所有其他方法，突出了数据增强的好处。DeepCrack-GF 实现了最高的全局准确率和交并比，提供比基于 CRF 的方法更清晰的边界和更快的推理。传统方法和边缘检测网络如 AutoCrack 和 HED 表现较低，特别是在处理较宽裂缝或产生粗糙分割时。

该研究在具有裂缝和非裂缝像素之间显著类别不平衡特征的自定义基准数据库上评估 DeepCrack 网络。实验表明，中层优于其他层级，而特征融合和细化策略显著提高了分割精度。此外，使用数据增强和引导滤波的变体与基线方法和传统边缘检测网络相比，实现了更高的效率和边界清晰度。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

Yahui Liu Lian Yao Xiaohu Lu Renping Xie Li Li

摘要

一句话总结

核心贡献

DeepCrack 是一种深度分层卷积神经网络，聚合从低到高层卷积层的多尺度和多级特征，用于端到端像素级分割。
深度监督网络（Deeply-Supervised Nets）提供集成的直接监督，而引导滤波和条件随机场（Conditional Random Fields）细化最终预测结果。
建立了一个由 537 张手动标注图像组成的公开基准数据集用于评估系统，该方法在此数据集上取得了最先进的性能，平均 I/U 为 85。

引言

数据集

数据集组成和来源
- 作者建立了一个新的开放基准数据库，包含 537 张带有手动标注的 RGB 彩色图像。
- 引用了另一个公开基准 [48] 用于评估细裂缝检测能力。
子集详情
- 主数据库将图像分为 300 张用于训练，237 张用于测试。
- 主数据库中的所有图像共享 544 乘 384 像素的固定尺寸。
- 外部基准包含少于 40 张标注图像，专注于 2 到 5 像素宽的裂缝。
标注和处理
- 真值以像素级分割掩码的形式提供，精确覆盖裂缝区域。
- 标注人员通过查看二值图像生成掩码，以确保分割精度。
- 数据集涵盖多种纹理，包括沥青和混凝土场景中的裸露、粗糙和脏污表面。
- 裂缝宽度变化显著，从 1 到 180 像素不等，以挑战分割模型。
在模型开发中的用途
- 主要数据集作为训练和测试所提出的深度学习方法的基础。
- 外部数据集评估在细裂缝上的性能，通常需要传统的后处理。

方法

下一图提供了层配置和操作的详细视图，突出了特定的核大小、步长以及批量归一化的集成。

$\mathcal{L} = \mathcal{L}_{\mathrm{side}}(\mathbf{I}, \mathbf{G}, \mathbf{W}, \mathbf{w}) + \mathcal{L}_{\mathrm{fuse}}(\mathbf{I}, \mathbf{G}, \mathbf{W})$

其中 $\mathbf{I}$ 代表输入图像， $\mathbf{G}$ 是真值， $\mathbf{W}$ 表示网络参数。该公式确保网络最小化所有监督级别上最终预测与真值之间的差异。

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DeepCrack：一种用于裂纹分割的深度层次化特征学习架构

Yahui Liu Lian Yao Xiaohu Lu Renping Xie Li Li

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DeepCrack：一种用于裂纹分割的深度层次化特征学习架构

Yahui Liu Lian Yao Xiaohu Lu Renping Xie Li Li

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DeepCrack：一种用于裂纹分割的深度层次化特征学习架构

Yahui Liu Lian Yao Xiaohu Lu Renping Xie Li Li

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters