2달 전

마라티어에서 저작권 침해 검출 향상: TF-IDF와 BERT 임베딩의 가중 앙상블을 이용한 저자원 언어 처리

Atharva Mutsaddi; Aditya Choudhary
마라티어에서 저작권 침해 검출 향상: TF-IDF와 BERT 임베딩의 가중 앙상블을 이용한 저자원 언어 처리
초록

표절은 다른 사람의 작업이나 개념을 적절한 출처 표시 없이 사용하여 원작인 것처럼 제시하는 행위를 말합니다. 마라티어와 같은 인도 지역 언어로 전달되는 데이터가 증가함에 따라, 저자원 언어에 특화된 강력한 표절 검출 시스템을 설계하는 것이 중요해졌습니다. 양방향 트랜스포머 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT)과 같은 언어 모델들은 텍스트 표현과 특성 추출에서 뛰어난 능력을 보여주어 의미 분석 및 표절 검출에 필수적인 도구가 되었습니다. 그러나 BERT의 저자원 언어 적용은 특히 표절 검출 측면에서 아직 충분히 연구되지 않았습니다. 본 논문에서는 BERT 문장 임베딩과 용어 빈도-역문서 빈도(Term Frequency-Inverse Document Frequency, TF-IDF) 특성 표현을 결합하여 마라티어 텍스트의 표절 검출 정확도를 개선하는 방법을 제시합니다. 이 접근 방식은 기계 학습 모델들의 가중치 투표 앙상블을 통해 텍스트 특성의 통계적, 의미적, 구문적 측면을 효과적으로 포착합니다.

마라티어에서 저작권 침해 검출 향상: TF-IDF와 BERT 임베딩의 가중 앙상블을 이용한 저자원 언어 처리 | 최신 연구 논문 | HyperAI초신경