2달 전

비지도 텍스트 분류 평가: 제로샷 및 유사성 기반 접근법

Tim Schopf; Daniel Braun; Florian Matthes
비지도 텍스트 분류 평가: 제로샷 및 유사성 기반 접근법
초록

미지 클래스의 텍스트 분류는 어려운 자연어 처리 작업으로, 주로 두 가지 유형의 접근 방식을 사용하여 시도됩니다. 유사성 기반 접근 방식은 텍스트 문서 표현과 클래스 설명 표현 사이의 유사성을 바탕으로 인스턴스를 분류하려고 합니다. 제로샷 텍스트 분류 접근 방식은 학습 과정에서 얻은 지식을 일반화하여 미지 클래스에 적절한 라벨을 텍스트 문서에 할당하는 것을 목표로 합니다. 기존 연구들은 이미 이러한 범주별 개별 접근 방식을 조사하였지만, 문헌에서 제시된 실험들은 일관된 비교를 제공하지 않습니다. 본 논문에서는 이 간극을 메우기 위해 미지 클래스의 텍스트 분류를 위한 다양한 유사성 기반 및 제로샷 접근 방식에 대한 체계적인 평가를 수행합니다. 최신 기술의 다양한 접근 방식이 네 개의 텍스트 분류 데이터셋,其中包括一个新的医学领域的数据集,에서 벤치마크됩니다. 또한, 기존 연구에서 사용된 다른 베이스라인들이 약한 분류 결과를 보이고 쉽게 능가되는 점을 고려하여 새로운 SimCSE와 SBERT 기반 베이스라인이 제안되었습니다. 마지막으로, 감독되지 않은 텍스트 분류에서 이전 최신 기술보다 우수한 성능을 보이는 새로운 유사성 기반 Lbl2TransformerVec 접근 방식이 소개됩니다. 우리의 실험 결과는 대부분의 경우에서 유사성 기반 접근 방식이 제로샷 접근 방식보다 크게 우수함을 보여줍니다. 또한, 단순한 텍스트 표현 대신 SimCSE 또는 SBERT 임베딩을 사용하면 유사성 기반 분류 결과가 더욱 개선됨을 확인하였습니다.注:在翻译中有一处中文混入,应该是“其中包括一个新的医学领域的数据集”,正确的韩文翻译如下:본 논문에서는 이 간극을 메우기 위해 미지 클래스의 텍스트 분류를 위한 다양한 유사성 기반 및 제로샷 접근 방식에 대한 체계적인 평가를 수행합니다. 최신 기술의 다양한 접근 방식이 네 개의 텍스트 분류 데이터셋,其中包括一个新的医学领域的数据集(새로운 의학 영역 데이터셋 포함), 에서 벤치마크됩니다.最终完整的韩文翻译为:미지 클래스의 텍스트 분류는 어려운 자연어 처리 작업으로, 주로 두 가지 유형의 접근 방식을 사용하여 시도됩니다. 유사성 기반 접근 방식은 텍스트 문서 표현과 클래스 설명 표현 사이의 유사성을 바탕으로 인스턴스를 분류하려고 합니다. 제로샷 텍스트 분류 접근 방식은 학습 과정에서 얻은 지식을 일반화하여 미지 클래스에 적절한 라벨을 텍스트 문서에 할당하는 것을 목표로 합니다. 기존 연구들은 이미 이러한 범주별 개별 접근 방식을 조사하였지만, 문헌에서 제시된 실험들은 일관된 비교를 제공하지 않습니다. 본 논문에서는 이 간극을 메우기 위해 미지 클래스의 텍스트 분류를 위한 다양한 유사성 기반 및 제로샷 접근 방식에 대한 체계적인 평가를 수행합니다. 최신 기술의 다양한 접근 방식이 네 개의 텍스트 분류 데이터셋, 새로운 의학 영역 데이터셋 포함, 에서 벤치마크됩니다. 또한, 기존 연구에서 사용된 다른 베이스라인들이 약한 분류 결과를 보이고 쉽게 능가되는 점을 고려하여 새로운 SimCSE와 SBERT 기반 베이스라인이 제안되었습니다. 마지막으로, 감독되지 않은 텍스트 분류에서 이전 최신 기술보다 우수한 성능을 보이는 새로운 유사성 기반 Lbl2TransformerVec 접근 방식이 소개됩니다. 우리의 실험 결과는 대부분의 경우에서 유사성 기반 접근 방식이 제로샷 접근 방식보다 크게 우수함을 보여줍니다. 또한, 단순한 텍스트 표현 대신 SimCSE 또는 SBERT 임베딩을 사용하면 유사성 기반 분류 결과가 더욱 개선됨을 확인하였습니다.

비지도 텍스트 분류 평가: 제로샷 및 유사성 기반 접근법 | 최신 연구 논문 | HyperAI초신경