近年来,基于Transformer的方法在低光照图像增强任务中展现出与基于CNN的方法相媲美的强大竞争力,其核心在于采用自注意力机制进行特征提取。Transformer方法在建模长距离像素依赖关系方面表现优异,这对于实现更优的光照效果、自然的色彩还原以及更高的对比度至关重要。然而,自注意力机制带来的高计算开销限制了其在低光照图像增强领域的进一步发展,且部分现有方法难以在精度与计算成本之间取得良好平衡。针对上述问题,本文提出一种轻量高效的新网络结构——PPformer,其核心为所提出的像素级与块级交叉注意力机制(Pixel-wise and Patch-wise Cross-Attention)。PPformer是一种CNN与Transformer融合的混合架构,整体分为三个关键部分:局部分支(local-branch)、全局分支(global-branch)以及双交叉注意力模块(Dual Cross-Attention)。各部分在整体网络中发挥着不可或缺的作用。具体而言,局部分支通过堆叠的宽增强模块(Wide Enhancement Modules)提取图像的局部结构信息;全局分支则借助交叉块模块(Cross Patch Module)与全局卷积模块(Global Convolution Module)提供精细化的全局上下文信息。与传统的自注意力机制不同,PPformer利用提取的全局语义信息,引导局部与非局部区域之间的依赖关系建模,从而实现更精准的特征交互。通过计算双交叉注意力机制,PPformer能够有效恢复出具有更好色彩一致性、自然亮度与对比度的图像。得益于所提出的双交叉注意力机制,该网络能够在全尺寸特征图上同时捕捉像素级与块级的依赖关系,实现对图像全局与局部语义信息的协同建模。在11个真实世界基准数据集上的大量实验表明,PPformer在定量指标与定性效果方面均显著优于现有最先进方法,充分验证了其有效性与优越性。