RLAS-BIABC: 개선된 ABC 알고리즘으로 향상된 BERT 모델을 활용한 강화학습 기반 답변 선택

질문 선택(Answer Selection, AS)은 개방형 도메인 질의응답(Question Answering, QA) 문제의 핵심 하위 과제이다. 본 논문에서는 주목성 기반 장단기 기억망(Long Short-Term Memory, LSTM)과 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT) 기반 단어 임베딩을 기반으로 하되, 사전 훈련을 위한 개선된 인공蜂 군집(artificial bee colony, ABC) 알고리즘과 BP(역전파) 알고리즘의 훈련을 위한 강화학습 기반 알고리즘을 통합한 RLAS-BIABC라는 새로운 방법을 제안한다. BERT는 하류 작업에 통합되어 특정 작업에 맞게 미세조정(fine-tuning) 가능하며, 사전 훈련된 BERT 모델은 다양한 언어적 특징을 효과적으로 포착할 수 있다. 기존의 알고리즘들은 일반적으로 두 클래스 분류기를 위한 양성-음성 쌍(positive-negative pairs)을 사용하여 AS 모델을 훈련한다. 양성 쌍은 질문과 실제 정답으로 구성되며, 음성 쌍은 질문과 가짜 답변으로 구성된다. 출력값은 양성 쌍에 대해 1, 음성 쌍에 대해 0이 되어야 한다. 그러나 보통 음성 쌍의 수가 양성 쌍보다 훨씬 많아, 분류 불균형이 심화되며 이는 시스템 성능을 크게 저하시키는 원인이 된다. 이를 해결하기 위해 본 연구에서는 분류 과정을 순차적 결정 문제로 정의한다. 여기서 에이전트는 각 단계에서 샘플을 하나씩 선택하고 이를 분류한다. 각 분류 작업에 대해 에이전트는 보상을 받으며, 다수 클래스의 보상은 소수 클래스의 보상보다 낮게 설정된다. 궁극적으로 에이전트는 정책 가중치에 대한 최적값을 탐색하게 된다. 정책 가중치는 개선된 ABC 알고리즘을 통해 초기화되며, 이 초기화 기법은 국소 최적값에 갇히는 문제를 효과적으로 방지할 수 있다. 비록 ABC 알고리즘이 대부분의 작업에서 우수한 성능을 보이지만, 이 알고리즘은 이웃한 식량 원천 위치를 탐색하는 과정에서 개별 개체 간의 관련성에 대한 적합도(fitness)를 고려하지 않는 단점이 있다.