HyperAI

초록

레이블링 체계는 시간이 지남에 따라 변화하기 때문에, 오래된 체계를 따르는 데이터셋은 미세한 차이만으로도 사용할 수 없게 된다. 이는 연구자들이 이전의 주석 작업을 기반으로 연구를 이어가지 못하게 하며, 특히 담론 학습 분야에서 클래스 불균형이 심한 소규모 데이터셋이 다수 존재하게 만든다. 본 연구에서는 유사하고 다양한 도메인의 담론 데이터셋을 다중 작업 학습(multitask learning) 기반으로 통합함으로써 담론 분류 성능을 향상시킬 수 있음을 보여준다. 최근에 발표된 가장 큰 담론 데이터셋 중 하나인 NewsDiscourse 데이터셋에서 기존 최고 성능 기준 대비 4.9%의 마이크로 F1 스코어 향상을 달성하였으며, 이는 특히 부족하게 표현된 클래스의 성능을 개선하는 데 기여한 태스크 간 레이블 상관관계의 영향 때문이라고 분석된다. 또한 자연어처리(NLP) 분야에서 자원이 부족한 문제를 해결하기 위해 제안된 다양한 기법들을 종합적으로 검토하였으며, 본 연구 설정에서 이러한 기법들 중 어느 것도 분류 정확도 향상에 기여하지 못함을 입증하였다.

벤치마크

벤치마크	방법론	지표
text-classification-on-newsdiscourse	MT-Mac (Spangher et al., 2021)	macro F1: 63.46
text-classification-on-newsdiscourse	MT-Mic (Spangher et al., 2021)	macro F1: 61.89
text-classification-on-newsdiscourse	Human (Post-Rec.) (Spangher et al., 2021)	macro F1: 73.69
text-classification-on-newsdiscourse	Human (Blind) (Spangher et al., 2021)	macro F1: 46.18

다중 작업 반감독 학습을 통한 클래스 불균형 대화 분류

{Lingjia Deng Sz-Rung Shiang Jonathan May Alexander Spangher}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters

Command Palette

다중 작업 반감독 학습을 통한 클래스 불균형 대화 분류

{Lingjia Deng Sz-Rung Shiang Jonathan May Alexander Spangher}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters