17일 전

동적 메트릭 학습: 다중 의미 척도를 수용할 수 있는 확장 가능한 메트릭 공간으로 향하여

Yifan Sun, Yuke Zhu, Yuhan Zhang, Pengkun Zheng, Xi Qiu, Chi Zhang, Yichen Wei
동적 메트릭 학습: 다중 의미 척도를 수용할 수 있는 확장 가능한 메트릭 공간으로 향하여
초록

본 논문은 실제 측정 도구에서의 기본적 특성인 '동적 범위(dynamic range)'를 심층 시각 인식 분야에 도입하는 새로운 접근을 제안한다. 측정학에서 동적 범위는 측정 도구의 기본적인 품질로서, 다양한 척도를 수용할 수 있는 유연성을 나타낸다. 동적 범위가 클수록 더 높은 유연성을 갖는다. 시각 인식 분야에서도 다중 척도 문제는 여전히 존재한다. 다양한 시각적 개념은 서로 다른 의미 척도(sematic scale)를 가질 수 있다. 예를 들어, '동물'과 '식물'은 큰 의미 척도를 가지지만, '얼크(Elk)'는 훨씬 더 작은 의미 척도를 갖는다. 작은 의미 척도 하에서는 두 개의 서로 다른 얼크가 서로 매우 \emph{다르게} 보일 수 있다. 그러나 큰 의미 척도(예: 동물과 식물) 하에서는 이 두 얼크가 \emph{유사하다}고 평가되어야 한다. 우리는 이러한 유연성이 심층 측정 학습에도 중요하다고 주장한다. 왜냐하면 실제로 다양한 시각적 개념은 서로 다른 의미 척도에 대응하기 때문이다.이러한 동적 범위 개념을 심층 측정 학습에 도입함으로써, 새로운 컴퓨터 비전 과제인 '동적 측정 학습(Dynamic Metric Learning)'을 제안한다. 이 과제는 다중 의미 척도에 걸쳐 시각적 개념을 수용할 수 있는 확장 가능한 측정 공간을 학습하는 것을 목표로 한다. 차량, 동물, 온라인 제품 세 가지 유형의 이미지를 기반으로 동적 측정 학습을 위한 세 가지 데이터셋을 구축하였다. 이러한 데이터셋을 주요 심층 측정 학습 방법들과 비교하여 평가한 결과, 동적 측정 학습이 매우 도전적인 과제임을 확인하였다. 주요 난이도는 서로 다른 척도 간의 갈등에 있다. 작은 척도에서의 구분 능력이 높아지면 큰 척도에서의 구분 능력이 희생되고, 반대로 큰 척도에서의 구분 능력이 강화되면 작은 척도에서의 구분 능력이 저하되는 경향이 있다. 보조적인 기여로, 이러한 갈등을 완화하기 위해 교차 척도 학습(Cross-Scale Learning, CSL)을 제안한다. 실험 결과, CSL이 세 가지 데이터셋에서 모두 기준 모델을 일관되게 향상시킴을 보였다. 제공되는 데이터셋과 코드는 https://github.com/SupetZYK/DynamicMetricLearning 에서 공개될 예정이다.