
초록
우리는 데이터셋 요약을 위한 새로운 과제인 K개의 주요 개념 식별(Principal Concept Identification)을 제안한다. 이 과제의 목적은 데이터셋 내 변화를 가장 잘 설명하는 K개의 개념을 찾는 것이다. 개념은 '호랑이', '카약 타기', '기쁨'과 같은 고수준의 인간이 이해할 수 있는 표현을 의미한다. 이러한 K개의 개념은 입력된 후보 개념 목록(우리는 이를 개념은행(concept-bank)이라 부른다)에서 선택된다. 개념은행은 일반 사전에서 가져올 수도 있고, 특정 작업에 맞춘 사전 지식을 바탕으로 구성될 수도 있다. 이미지-언어 임베딩 기법(예: CLIP)을 사용하여 이미지와 개념은행을 공통의 특징 공간으로 매핑한다. 데이터를 가장 잘 설명하는 K개의 개념을 선택하기 위해, 본 문제를 K개의 무제한 시설 위치 문제(K-uncapacitated facility location problem)로 수식화한다. 이를 위해 대규모 개념은행에서도 효율적으로 적용 가능한 최적화 기법을 활용하여 로컬 탐색 알고리즘의 스케일링을 가능하게 한다. 본 방법의 출력은 데이터셋을 요약하는 K개의 주요 개념 집합이다. 기존에 K개의 대표 이미지를 선택하는 방식과 비교해, 본 방법은 더 명확하고 해석 가능한 요약을 제공한다. 본 방법의 추가적 응용으로, K개의 주요 개념을 활용하여 데이터셋을 K개의 그룹으로 분류할 수 있다. 광범위한 실험을 통해 제안된 방법의 효과성을 입증하였다.