17일 전

BioNLI: 적대적 예제를 위한 어휘-의미적 제약을 활용한 생물의학 분야 NLI 데이터셋 생성

Mohaddeseh Bastan, Mihai Surdeanu, Niranjan Balasubramanian
BioNLI: 적대적 예제를 위한 어휘-의미적 제약을 활용한 생물의학 분야 NLI 데이터셋 생성
초록

생물의학 분야에서 복잡한 의사결정을 위한 자연어 추론(NLI)은 매우 중요한 역할을 한다. 예를 들어, 특정 생물의학적 메커니즘이 실험적 증거에 의해 지지되는지 여부를 판단하는 것은 NLI 문제로 간주될 수 있지만, 이를 해결할 수 있는 직접적인 사용 가능한 데이터셋은 존재하지 않는다. 주요 과제는 이 작업을 위한 정보성 있는 부정 예시(negative examples)를 수작업으로 생성하는 것이 어렵고 비용이 많이 든다는 점이다. 본 연구에서는 기존의 생물의학 데이터셋에서 추론 메커니즘과 실험적 증거를 추론문(Abstract) 내에서 쌍으로 연결한 자료를 기반으로, 새로운 반감독(semi-supervised) 프로시저를 제안한다. 이 프로시저는 구조적 변형을 통해 다양한 부정 예시를 생성하며, 이 과정에서 규칙 기반 전략(예: 상호작용 내 엔티티의 역할을 반전시키는 방식)과 더불어, 신경논리적 디코딩 시스템 내에서 논리적 제약 조건을 활용한 변형 방식을 포함한 총 9가지 전략을 사용한다. 이러한 절차를 활용하여 생물의학 분야의 NLI를 위한 새로운 데이터셋인 BioNLI를 구축하였으며, 최신 생물의학 분류기 두 종류를 기준으로 성능을 평가하였다. 얻어진 최고 성능은 F1 점수 기준 약 70대 중반으로, 이는 해당 작업의 난이도를 시사한다. 특히 주목할 점은 부정 예시의 다양한 유형에 따른 성능 차이가 매우 크다는 점이다. 간단한 역할 변경에 기반한 부정 예시에서는 F1 점수가 97%에 달하지만, 신경논리적 디코딩을 통해 생성된 부정 예시의 경우 거의 우연의 결과보다 나은 수준에 그친다.