2달 전

부분 라벨을 사용한 다중 라벨 이미지 인식을 위한 이중 관점 의미 인식 표현 혼합

Pu, Tao ; Chen, Tianshui ; Wu, Hefeng ; Shi, Yukai ; Yang, Zhijing ; Lin, Liang
부분 라벨을 사용한 다중 라벨 이미지 인식을 위한 이중 관점 의미 인식 표현 혼합
초록

현재의 다중 라벨 이미지 인식(Multi-Label Recognition, MLR) 알고리즘은尽管取得了显著进展,但当前的多标签图像识别算法仍严重依赖大规模且标签完整的数据集,这使得收集大规模数据集极为耗时且劳动密集。使用部分标签(Partial Labels, PL)训练多标签图像识别模型(MLR-PL)是一种替代方法,在这种方法中,每张图像仅有一些标签是已知的,而其他标签则未知。然而,现有的 MLR-PL 算法依赖于预训练的图像相似度模型或迭代更新图像分类模型以生成未知标签的伪标签。因此,它们依赖一定数量的注释,并且不可避免地在性能上出现明显下降,尤其是在已知标签比例较低的情况下。为了应对这一困境,我们提出了一种双视角语义感知表示融合(Dual-Perspective Semantic-Aware Representation Blending, DSRB)方法,该方法从实例和原型两个角度分别融合不同图像中的多粒度类别特定语义表示,以传递已知标签的信息并补充未知标签。具体而言,设计了一个实例视角表示融合(Instance-Perspective Representation Blending, IPRB)模块,用于将一张图像中的已知标签表示与另一张图像中相应的未知标签表示进行融合,从而补充这些未知标签。同时,引入了一个原型视角表示融合(Prototype-Perspective Representation Blending, PPRB)模块,用于学习每个类别的更稳定的表示原型,并以位置敏感的方式将未知标签的表示与相应标签的原型进行融合,从而补充这些未知标签。在 MS-COCO, Visual Genome 및 Pascal VOC 2007 데이터셋에서 수행된 광범위한 실험 결과는 제안된 DSRB가 모든 알려진 라벨 비율 설정에서 현재 최신 알고리즘보다 일관되게 우수한 성능을 보임을 입증하였습니다.修正后的翻译:현재의 다중 라벨 이미지 인식(Multi-Label Recognition, MLR) 알고리즘은尽管取得了显著进展,但当前的多标签图像识别算法仍严重依赖大规模且标签完整的数据集,这使得收集大规模数据集极为耗时且劳动密集。使用部分标签(Partial Labels, PL)训练多标签图像识别模型(MLR-PL)是一种替代方法,在这种方法中,每张图像仅有一些标签是已知的,而其他标签则未知。然而,现有的 MLR-PL 算法依赖于预训练的图像相似度模型或迭代更新图像分类模型以生成未知标签的伪标签。因此,它们依赖一定数量的注释,并且不可避免地在性能上出现明显下降,尤其是在已知标签比例较低的情况下。为了应对这一困境،我们提出了一种双视角语义感知表示融合(Dual-Perspective Semantic-Aware Representation Blending, DSRB)方法,该方法从实例和原型两个角度分别融合不同图像中的多粒度类别特定语义表示,以传递已知标签的信息并补充未知标签。具体而言,设计了一个实例视角表示融合(Instance-Perspective Representation Blending, IPRB)模块,用于将一张图像中的已知标签表示与另一张图像中相应的未知标签表示进行融合(位置敏感的方式),从而补充这些未知标签。同时,引入了一个原型视角表示融合(Prototype-Perspective Representation Blending, PPRB)模块,用于学习每个类别的更稳定的表示原型,并以位置敏感的方式将未知标签的表示与相应类别原型进行融合(位置敏感的方式),从而补充这些未知标签。MS-COCO, Visual Genome 및 Pascal VOC 2007 데이터셋에서 수행된 광범위한 실험 결과는 제안된 DSRB 방법이 모든 알려진 라벨 비율 설정에서 현재 최신 알고리즘보다 일관되게 우수한 성능을 보임을 입증하였습니다.最终版本:현재의 다중 라벨 이미지 인식(Multi-Label Recognition, MLR) 알고리즘은 상당한 진전을 이루었음에도 불구하고 여전히 대규모 완전 라벨링된 데이터셋에 크게 의존하고 있어, 이로 인해 대규모 데이터셋 수집이 매우 시간 소요가 크고 노동 집약적입니다. 부분적으로만 라벨이 있는 이미지를 사용하여 다중 라벨 이미지 인식 모델(Multi-Label Recognition with Partial Labels, MLR-PL)을 훈련시키는 것이 대체 방안으로 제시됩니다. 이 방법에서는 각 이미지에 대해 일부 라벨만 알려져 있고 나머지는 알려져 있지 않은 상태입니다. 그러나 현재의 MLR-PL 알고리즘들은 사전 학습된 이미지 유사성 모델이나 이미지 분류 모델을 반복적으로 업데이트하여 미확인 라벨에 대한 가짜 라벨(pseudo labels)을 생성하는 방식에 의존하고 있습니다. 따라서 이러한 알고리즘들은 일정량의 주석(annotation)에 의존하며 특히 알려진 라벨 비율이 낮은 경우 성능 저하를 피할 수 없습니다.이 문제를 해결하기 위해 우리는 두 가지 관점에서 다양한 이미지 간의 다중 세분화 카테고리 특화 의미 표현(multi-granularity category-specific semantic representation)을 융합하여 알려진 라벨의 정보를 전달하고 미확인 라벨을 보완하는 방법인 '두 가지 관점 기반 의미 인식 표현 융합(Dual-Perspective Semantic-Aware Representation Blending, DSRB)'을 제안합니다. 구체적으로는 '인스턴스 관점 표현 융합(Instance-Perspective Representation Blending, IPRB)' 모듈을 설계하여 한 이미지 내의 알려진 라벨 표현과 다른 이미지 내의 해당 미확인 라벨 표현을 융합하여 이러한 미확인 라벨들을 보완합니다. 또한 '프로토타입 관점 표현 융합(Prototype-Perspective Representation Blending, PPRB)' 모듈을 도입하여 각 카테고리를 위한 더 안정적인 프로토타입 표현(proto types)를 학습하고 위치 감응(location-sensitive manner) 방식으로 미확인 라벨들의 표현과 해당 프로토타입들을 융합하여 이러한 미확인 라벨들을 보완합니다. MS-COCO, Visual Genome 및 Pascal VOC 2007 데이터셋에서 수행된 광범위한 실험 결과는 제안된 DSRB 방법이 모든 알려진 라벨 비율 설정에서 현재 최신 알고리즘보다 일관되게 우수한 성능을 보임을 입증하였습니다.

부분 라벨을 사용한 다중 라벨 이미지 인식을 위한 이중 관점 의미 인식 표현 혼합 | 최신 연구 논문 | HyperAI초신경