
초록
은유, 비유, 관용구와 같은 비유적 표현은 인간 소통의 핵심적인 구성 요소이다. 이러한 표현은 다양한 담론 형식에서 흔히 발견되며, 복잡하고 추상적인 개념을 전달하고 감정을 자극하는 데 기여한다. 비유적 표현은 종종 텍스트와 이미지 등 여러 모달리티를 통해 전달되기 때문에, 다모달 비유 언어를 이해하는 것은 시각, 언어, 보편적 지식 및 문화적 지식을 통합하는 데 있어 중요한 인공지능 도전 과제가 된다. 본 연구에서는 다모달 비유 언어 인식을 위한 IRFL(Image Recognition of Figurative Language) 데이터셋을 개발하였다. 인간의 주석(annotation)과 본 연구자가 개발한 자동화된 파이프라인을 활용하여 다모달 데이터셋을 생성하였으며, 다모달 비유 언어 이해를 위한 새로운 두 가지 과제를 제안하여 벤치마크로 제시하였다. 최신의 시각 및 언어 모델들을 실험한 결과, 최고 성능 모델이 22%의 정확도를 기록한 반면, 인간의 정확도는 97%에 달하여 상당한 격차를 보였다. 본 연구에서는 데이터셋, 벤치마크, 코드를 공개함으로써 비유 언어를 더 잘 이해할 수 있는 모델 개발을 촉진하고자 한다.