HyperAI초신경

AI가 개입한다! 텍스트 분석을 통한 '홍실의 꿈'과 '헨리 8세'의 실제 저자 식별

5년 전
정보
Dao Wei
特色图像

인공지능이 다시 문학계에 개입하고 있다. 하지만 이번에는 '작가 찾기'에 활용된다.

어떤 문학작품의 경우, 창작자가 확실하지 않고, 작품이 매우 오래되어 자세한 역사적 기록이 없다면, 창작자에 대한 문제는 다양한 의견이 엇갈리면서 미스터리가 되는 경우가 많습니다.

진실을 발견하기 위해 미래의 연구자들은 많은 에너지를 들여 정보를 찾고 연구하고 비교해야 합니다. 그렇더라도 가장 중요한 증거는 몇 가지 제한으로 인해 종종 얻을 수 없습니다.

하지만 인공지능의 개입으로 안개를 걷어낼 수 있는 또 다른 방법이 생긴 듯합니다.

데이터 과학을 이용해 '홍루몽' 작가 검증

《홍루몽》에 관해서는 일반적으로 조설근이 앞의 80편을 썼고, 고악이 뒤의 40편을 편찬하여 썼다고 전해진다. 후스, 위핑보, 저우루창 등의 문예학자들도 이 주장에 동의한다.

하지만 문학계에는 다양한 목소리가 존재합니다. 루쉰, 린위탕, 왕궈웨이, 파이셴융 등 많은 거장들은 모두 조설근이 단독으로 120권 전부를 완성했다고 믿고 있습니다.

  1. 1980년에 발표된 통계 연구 

1980년 첫 번째 국제 "붉은 방의 꿈" 심포지엄이 열렸을 당시 연구자들은 컴퓨터 통계적 방법을 사용하여 실제 저자를 찾으려고 노력했습니다.

위스콘신 주립 대학의 중국 학자 Chen Bingzao 씨는그는 "어휘 통계의 관점에서 본 붉은 저택의 꿈의 저자에 관하여"라는 제목의 논문을 발표했는데, 이는 국제 붉은학 커뮤니티의 주목을 받았습니다.

천병조는 120장으로 구성된 '홍루몽'을 순서대로 3개 묶음으로 편찬하였는데, 각 묶음은 40장씩이다. 또 다른 작품인 '어린이들의 영웅들'도 비교 연구를 위한 네 번째 그룹으로 포함되었습니다.

홍루몽의 저자에 대한 연구는 수백 년 동안 진행되어 왔습니다.

각 그룹에서 80,000개의 단어를 선택하세요.명사, 동사, 형용사, 부사, 기능어 등 5가지 유형의 단어를 골라보세요., 이들 단어들을 당시의 컴퓨터 프로그램을 통해 정리, 계산, 비교, 처리하여 각 그룹 간의 상관관계 정도를 알아냈습니다.

통계 결과에 따르면 "붉은 저택의 꿈"의 처음 80개 장과 마지막 40개 장에 사용된 단어 사이의 양의 상관관계는 78.57%입니다., '붉은 저택의 꿈'과 '아이들의 영웅'에 사용된 단어 사이의 양의 상관관계는 32.14%입니다.
이를 통해 천빙조 교수는 처음 80편과 마지막 40편은 모두 조설근이 혼자 쓴 것이라고 추론했습니다.

  2. 현대 SVM 알고리즘 연구

하지만 머신러닝을 사용해 판단을 내린다면 어떤 결론을 도출할 수 있을까?

최근 몇 년 동안 한 엔지니어가 간단한 알고리즘 분석을 사용하여 홍루몽의 저자를 연구했습니다. 그는 소설에서 사용된 단어의 빈도와 같은 특징을 훈련시킨 파이썬 도구를 사용하여 각 부분의 문체적 문제를 구분했습니다.

그는 책 전체를 단어별로 나누고 단어 빈도 통계를 수행했습니다. 그는 고빈도 단어를 찾은 후, 각 장에서 그 단어가 등장한 횟수를 세었고, 이를 통해 각 장 간의 단어 사용 습관의 차이점을 알아냈습니다.

그런 다음 SVM 알고리즘을 사용하여 모델을 구축했습니다. 우리는 처음 80개 장과 마지막 40개 장 중에서 일부 장을 선택하여 모델에 입력하여 글쓰기 특성을 학습했습니다. 우리는 또한 나머지 장을 입력으로 사용하여 컴퓨터가 각 장이 어느 부분에 속하는지 판별하도록 했습니다.

최종 모델은 95%의 정확도로 예측할 수 있습니다.이는 알고리즘 모델에서 처음 80개 장과 마지막 40개 장이 글쓰기 스타일에서 명백한 차이가 있으며 서로 다른 저자의 작품이라는 것을 간접적으로 증명합니다.

첫 80회(빨간색)와 마지막 40회(파란색)의 단어 사용 통계

이 프로젝트에도 단점은 있다.예를 들어, 선택된 기능이 너무 적어 최종적으로 지표로 선택된 단어는 278개에 불과했습니다.그리고 교육 내용은 한 권의 책으로 제한되어 있어 문제를 엄밀하게 설명하지 못했습니다.

"홍루의 꿈"의 저자에 대한 분석이 단순한 실험이었다면, 유명 소설 "헨리 8세"의 저자에 대한 과학자의 최근 연구는 훨씬 더 정확하고 엄격했습니다.

헨리 8세의 저자는 여전히 미스터리로 남아 있으며 AI가 조치를 취합니다.

'홍루몽'과 마찬가지로 영국의 유명 희곡작 '헨리 8세'도 같은 문제에 부딪혔다. 이 작품은 셰익스피어의 마지막 작품이라고 불리지만, 실제로는 여러 사람이 쓴 작품일 수도 있다.

헨리 8세는 역사상 극도로 폭군적인 군주였으며, 피부색이 짙은 진시황과 비교된다. 그는 1513년에서 1547년 사이에만 약 1,000명을 처형하라고 명령했습니다. 7만 2천정치범들조차도여섯 명의 아내 중 두 명단두대에 오르다.

이 캐릭터의 시대적 특성과 전설적 성격으로 인해 그에 대한 문학 작품, 영화, 텔레비전 작품이 끊임없이 탄생했습니다. 예를 들어, 같은 이름의 소설과 이를 각색한 영화 "The Other Boleyn Girl", 그리고 텔레비전 시리즈 "The Tudors"가 있습니다.

The Other Boleyn Girl은 헨리 8세의 잔인함과 잔혹함을 다룬 이야기입니다.
블랙 위도우 역의 스칼렛 요한슨과 블랙 스완 역의 나탈리 포트만 주연

희곡 "헨리 8세"는 1612년에 쓰였습니다. 이는 헨리 8세와 관련된 사건을 바탕으로 한 각색 및 해석입니다. 이 작품은 여러 차례 상연되었으며 사회적으로 큰 호응을 얻었습니다.하지만 텍스트를 연구해 본 후 많은 사람들은 그 문체가 셰익스피어의 다른 작품들과는 매우 다르다는 것을 발견했습니다.

어떤 사람들은 그것이 다른 사람에 의해 만들어졌는지, 아니면 협업의 산물인지 의문을 품습니다. 1850년이 되어서야 한 연구자가 다른극작가 플레처는 헨리 8세의 공동작업자였을 수도 있습니다..

그 이유는 다음과 같습니다.플레처의 독특한 문체는 헨리 8세에서 많이 발견된다.

플레처(왼쪽)는 셰익스피어(오른쪽)가 은퇴한 후 킹스맨의 수석 극작가가 되었습니다.

그 다음 세기 동안 저자에 대한 논쟁은 계속되었고, 어떤 이들은 세 번째 극작가인 매신저가 관련되어 있다고 주장하기도 했습니다.

최근 연구로 인해 이 수수께끼가 밝혀졌습니다. 데이터 과학자,AI 알고리즘을 사용하여 드라마 '헨리 8세'의 원작자를 텍스트의 모든 세부 사항까지 더욱 자세히 찾아냈습니다.

머신 러닝은 실제 저자가 누구인지 판별하는 데 도움이 됩니다.

프라하에 있는 체코 과학 아카데미의 연구원인 페트르 플레차치는 최근 머신 러닝 기술을 사용하여 헨리 8세의 저자 문제를 식별하여 설득력 있는 결과를 얻었습니다. 그의 연구 결과는 논문으로 작성되어 arXiv에 업로드되었습니다.

주소: https://arxiv.org/pdf/1911.05652.pdf

이 연구에서 플레하(Plecha)는 데이터 과학의 차원을 활용하여 "헨리 8세"의 각 부분을 누가 썼는지 파악하고 구체적인 주장을 제시했습니다.

그는 텍스트 작품의 내용을 분석하여 다양한 작가의 글쓰기 스타일의 특징을 파악했고, 이를 통해 작품을 구별하고 세부적인 구분과 분류를 만들었습니다.

이 알고리즘은 결국 헨리 8세의 일부 장을 셰익스피어에게, 다른 장은 플레처에게 귀속시켜 두 사람이 작품에 거의 동등한 기여를 했다고 판단했습니다. 그뿐만 아니라, 이 알고리즘은 각 섹션의 작성자도 분류합니다.

1623년에 처음 출판된 헨리 8세의 첫 페이지

결국, 머신 러닝이 제시한 저자 구분은 기존의 주류 연구의 견해와 일치했으며, 몇 가지 획기적인 성과도 거두었습니다.

어휘와 리듬을 살펴보아 텍스트의 출처를 파악하세요.

그는 구체적으로 어떻게 그것을 했나요? 작가의 스타일과 일반적으로 사용되는 단어와 패턴을 이해하면 이를 사용하여 새로운 작품의 텍스트 규칙을 파악하여 같은 작가의 작품인지 판별할 수 있습니다.

이 연구에서는알고리즘 모델이 텍스트에 나오는 일반적인 단어와 일반적인 문장 리듬 패턴을 학습하고 분석하여 알고리즘이 이러한 기능을 식별하는 법을 배울 수 있도록 합니다.

문장의 리듬(리듬 유형)과 자주 쓰이는 단어에 대한 종합적인 분석
다른 연구에서 검증된 모델 정확도는 1에 가깝습니다.

구체적으로, 먼저 대본을 여러 개의 작은 장면으로 나누고, 지원 벡터 머신을 사용하여 헨리 8세의 각 장면에 대한 속성 분석 및 분류를 수행해야 합니다.

그 중 가장 흔한 500개의 리듬 유형의 빈도와 가장 흔한 500개의 단어의 빈도가 분류기의 특징 집합으로 사용됩니다.

연구자들은 서로 다른 시대의 작가들 사이에 스타일이 다를 수 있다는 점을 감안하여, 같은 시기의 다른 연극(예: 템페스트와 코리올라누스)의 장면을 훈련 샘플로 사용했습니다. 가능한 저자에 대해 훈련 샘플도 수집했습니다.

마침내 수집됨 셰익스피어 훈련 샘플 53개, 플레처 훈련 샘플 90개, 매신저 훈련 샘플 46개.모델의 정확도를 추정하기 위해 교차 검증을 통해 모델을 테스트했습니다.

훈련 후, 이 모델은 헨리 8세의 텍스트에서 실행되었으며, 어휘에 대한 포괄적인 분석과 다기능성을 결합하여 어떤 작가가 희곡 집필에 참여했는지와 그들의 구체적인 기여를 파악했습니다.

최종 결과는 이것이 두 작가의 스타일을 구별하는 데 매우 신뢰할 수 있는 기준이라는 것을 증명했습니다. 특히, 공통 단어와 공통 리듬을 사용한 결합 모델은 세 저자의 스타일을 식별하는 데 있어 96%보다 정확도가 더 높습니다.

다양한 장의 30개 샘플에 대한 분류기의 분류 결과는 가장 권위 있는 저자 분류(마지막 열)보다 더 자세합니다.

헨리 8세에 대한 분석에 적용해보면, 두 작가 모두의 개입이 명확히 드러납니다. 또 다른 극작가로 소문난 매신저는 알고리즘 수준에서 자신이 대본과 아무런 관련이 없음을 나타냈습니다. 

새로운 방법은 각 섹션의 작성자를 세분화합니다.

플레하흐는 단순히 특정 장면을 귀속시키는 것을 넘어, 특정 저자에게 주어진 공로의 비중을 더욱 신뢰할 수 있는 수준으로 파악하기 위해 롤링 귀속이라는 분석 방법을 사용했습니다. 이는 특정 텍스트가 특정 저자에게 속할 확률을 결정합니다.

롤링 귀속은 여러 저자가 공동으로 참여한 사례에 적용되는 기술입니다. 롤링 귀속에서는 전체 텍스트나 논리적 부분(장, 장면 등)을 분류하는 대신, 고정 길이의 중복되는 부분을 분류 작업에 적용합니다.

롤링 귀속은 저자의 다른 작품의 구성을 결정합니다.
실제 상황과 매우 일치함

이 방법은 이동 창의 개념을 사용하고 표준 지도 분류 기술과 결합됩니다. 이 연구의 목적은 개별 텍스트 샘플 간의 스타일 차이를 평가하여 텍스트 스타일의 일관성을 테스트하는 것입니다.

결과에 따르면, 어휘적 특징과 결합된 롤링 귀속 방법은 매우 신뢰할 수 있습니다. 셰익스피어와 플레처를 구별할 때 롤링 귀속의 추정 정확도는 0.9977로 높습니다.

각 장의 저자 구분 및 신뢰성에 따라 다름

이 방법을 사용하여 우리는 각 장이 특정 저자의 작품일 가능성을 구체적으로 판단할 수 있었습니다. 위의 그림에서 우리는 셰익스피어와 플레처가 각각 완성한 장을 명확하게 볼 수 있습니다.결론은 다음과 같습니다. 셰익스피어와 플레처는 각각 콘텐츠 생성의 거의 절반을 완료했습니다.

AI는 문학에서 성공을 향해 나아가고 있습니다.

AI 알고리즘을 사용하여 유명 작품의 저자에 대한 미스터리를 해결하는 것은 문학 연구자와 애호가들에게 매우 가치 있는 일입니다. 동시에 이러한 문제를 살펴보기 위한 데이터 차원 관점도 제공합니다.

물론 저자 식별, 고스트라이팅, 표절 판단에 사용되는 것 외에도 유사한 AI 방법은 GPT-2와 같은 기술과 결합하여 특정 스타일의 작품을 생성할 수도 있으며, 이를 통해 역사의 긴 흐름 속에서 사라진 작품을 더 잘 복원할 수 있을지도 모릅니다.

음악이나 그림 등의 측면에서 차용한다면 작가의 정체성을 확인하는 데 사용될 수 있을 뿐만 아니라, 유명 작가의 스타일을 사용하여 새로운 작품을 창작하는 데에도 활용될 수 있습니다.

이런 점을 생각해 보면 AI가 훌륭한 작가가 되는 날이 바로 코앞에 다가온 것 같습니다.

-- 위에--