18 天前

Chitransformer:面向可靠立体视觉的线索探索

{Shihao Ji, Qing Su}
Chitransformer:面向可靠立体视觉的线索探索
摘要

当前的立体匹配技术面临搜索空间受限、遮挡区域以及图像规模庞大等挑战。尽管单目深度估计可规避上述问题,并通过提取单目线索获得令人满意的结果,但由于缺乏立体视觉关系,其预测结果在独立使用时可靠性较低,尤其在高度动态或复杂杂乱的环境中更为明显。为解决上述两种场景下的问题,本文提出一种受视交叉(optic chiasm)结构启发的自监督双目深度估计方法。该方法设计了一种带有门控位置交叉注意力(Gated Positional Cross-Attention, GPCA)层的视觉变换器(Vision Transformer, ViT),能够在不同视角间实现特征敏感的模式检索,同时通过自注意力机制保留广泛的空间上下文信息。随后,利用检索到的特征模式对单视图中的单目线索进行条件性校正,通过一个融合层实现优化。该交叉式结构在生物学上类比于人类视觉系统中的视交叉结构,因此命名为ChiTransformer。实验结果表明,该架构相较当前最先进的自监督立体匹配方法,在性能上实现了11%的显著提升,并可适用于直线投影(rectilinear)及非直线投影(如鱼眼镜头)图像。