HyperAI초신경

가족의 화합을 이루고 AI를 활용해 부모의 소문을 해소하세요

7년 전
정보
Sparanoid
特色图像

일정 수준의 과학적 소양을 갖춘 젊은이들은 이런 기사 제목을 클릭하지 않아도 그것이 소문이거나 과장된 것이라는 사실을 알 수 있습니다. 하지만 이런 기사는 우리 부모 세대의 위챗 그룹과 친구 목록에서 매일같이 맹렬하게 유포되고 있습니다.

가상 세계에서 뉴스의 출처와 진위 여부를 판단하는 것은 어려운데, 특히 부모의 경우 더욱 그렇습니다. 기사에 복잡한 과학 지식이나 모호한 과학 기관이 언급되거나 심지어 애국심이나 감상적인 내용을 덧붙이면 사람들은 소문에 혼란스러워하고 심지어 소문이 퍼지는 데 일조할 가능성이 큽니다.

많은 플랫폼에서는 소문을 반박하는 메커니즘을 구축하기 위해 온갖 수단을 동원하고 있습니다. 과거에는 이러한 메커니즘이 주로 불만 접수 + 수동 검토로 이루어졌지만, 수동 검토 형태로는 여전히 물 한 방울에 불과합니다.

같은세상은 같은 소문

이런 문제는 미국에서도 일어나고 있습니다. 중국에서 흔히 쓰이는 "소문"은 영어로는 "Rumor"로 번역되는 경우가 많습니다. 사실, 이 단어는 풍문이나 소문을 뜻합니다. 좀 더 엄격한 보도 기관에서는 이를 "거짓 소문"으로 번역할 수도 있는데, 이는 거짓 소문을 뜻합니다.

흥미로운 점은, 어떤 종류의 소문이 가장 널리 퍼질 가능성이 큰지 비교했을 때, 전 세계의 소문을 퍼뜨린 사람들은 유명인의 죽음에 대한 뉴스를 선택했다는 것입니다.

가족의 화합을 이루고 AI를 활용해 부모의 소문을 해소하세요
진용 씨는 거의 매년 죽는다

가족의 화합을 이루고 AI를 활용해 부모의 소문을 해소하세요
미국에서도 이와 비슷한 소문이 드물지 않습니다.

AI를 활용한 뉴스 정제

미국에서는 에런 에델이라는 엔지니어가 AI를 이용해 "FakeBox 가짜 뉴스 감지기"를 만들었습니다. 정확도는 비교적 높지만, 영어 맥락에서 중국어 시스템에는 내용이 적합하지 않습니다. 둘째, 상업적으로 활용하려면 아직 개선의 여지가 많이 있습니다. 하지만 그의 연구 과정은 비슷한 연구에 종사하는 전문가들에게 분명 큰 참고가 될 것입니다.

"FakeBox 가짜 뉴스 감지기"의 설계 과정은 순탄치만은 않았습니다. 성공에 있어서 가장 중요한 전환점은 가짜 뉴스를 판단하는 것에서 진짜 뉴스를 판단하는 것으로 목표를 바꾼 것입니다. 진실은 항상 일관되지만, 환상은 다양합니다.

FakeBox를 디자인할 당시 그가 겪었던 정신적 여정은 다음과 같습니다.

질문 1: 가짜 뉴스를 어떻게 정의하나요?

제가 처음 마주한 어려움은 예상치 못한 것이었습니다.가짜 뉴스를 조사해 본 결과, 가짜 뉴스가 모두 거짓은 아니고, 일부 뉴스는 과장되어 있고, 일부 뉴스는 검증되지 않은 것으로 나타났습니다. 사실, 가짜 뉴스는 여러 유형으로 구분해야 합니다. 명백한 오류, 반은 사실이고 반은 거짓, 완전한 사이비 과학, 가짜 뉴스 논평 등입니다.

그러므로 가짜뉴스는 하나하나 철저히 걸러내고 없애야 합니다.

첫 번째 실험: 감정 분석 모델을 이용한 문제 해결

처음에는 제가 직접 작은 도구를 만들었는데, 크롤러를 사용하여 기사 제목, 설명, 저자, 콘텐츠를 수집하고 그 결과를 감성 분석 모델로 보냈습니다. 저는 텍스트 상자를 사용했는데, 이는 결과를 빠르게 피드백할 수 있어서 매우 편리합니다. 각 기사에 대해 Textbox는 점수를 부여합니다. 5점 이상은 긍정적인 피드백이고, 5점 이하는 부정적인 피드백입니다. 또한 제목, 내용, 저자 등의 텍스트 점수를 각각 계산하고 이를 합산하여 점수가 포괄적이고 통합되도록 하는 작은 알고리즘도 만들었습니다.

처음에는 잘 작동했지만, 7번째나 8번째 기사를 테스트한 후 더 이상 작동하지 않게 되었습니다. 하지만 이 디자인 프로토타입은 제가 상상했던 소문 감지 시스템과 매우 가깝습니다.

하지만 결과는 실패였습니다.

가족의 화합을 이루고 AI를 활용해 부모의 소문을 해소하세요

두 번째 실험: NLP 모델을 활용한 문제 해결

제 친구인 데이비드 에르난데스는 제가 텍스트 자체를 기반으로 모델을 훈련해보라고 권했습니다. 저는 가짜 뉴스의 특징(웹사이트 출처, 저자 이름 등)을 파악하여 모델을 학습시키는 데이터 세트를 빠르게 구축할 수 있는지 알아보려고 노력했습니다.

우리는 모델을 훈련하는 데 유용할 것으로 보이는 다양한 데이터 세트를 수집하는 데 며칠을 보냈습니다. 데이터 세트가 충분히 크다고 생각했지만, 사실 데이터 세트의 내용은 처음부터 올바르게 분류되지 않았습니다. "가짜" 또는 "오해의 소지가 있음"으로 표시된 일부 웹사이트에는 실제 기사가 있거나 다른 웹사이트의 콘텐츠를 전달하는 경우가 있기 때문에 결과가 이상적이지 않습니다.

저는 모든 기사를 직접 읽기 시작했고, 데이터 처리에 많은 시간을 투자했습니다. 그 과정은 매우 힘들었지만, 요즘 거짓되고 악의적이며 심지어 폭력적인 뉴스를 볼 때마다 인터넷이 조장하는 문명에 의심이 들기 시작했습니다. 하지만 저는 더 많은 사람들이 소문에 의해 독살되는 것을 피하기 위해 더 나은 도구를 사용하기를 바랐습니다. 수동 검토를 추가한 후 데이터 세트는 테스트에서 약 70%의 정확도를 달성했습니다.

하지만 이 방법에는 치명적인 단점이 있습니다. 데이터 세트에 포함되지 않은 기사를 무작위로 검사해 보았지만 여전히 정보의 진위 여부를 정확하게 판단할 수 없었습니다.

그래도 실패했어요.

가족의 화합을 이루고 AI를 활용해 부모의 소문을 해소하세요

세 번째 실험: 가짜 뉴스를 데이터 세트로 찾지 말고 실제 뉴스를 찾으세요

이 문제의 성공에 전환점을 마련한 것은 데이비드의 제안이었습니다. 그는 제게 경각심을 일깨워 주었습니다. 그는 정확도를 높이는 핵심은 문제를 단순화하는 것일지도 모른다고 말했습니다. 어쩌면 우리가 해야 할 일은 가짜 뉴스를 감지하는 것이 아니라, 진짜 뉴스를 감지하는 것일지도 모릅니다. 실제 뉴스는 분류하기가 더 쉽습니다. 기사는 사실과 주요 내용으로 구성되어 있고 추가 설명이 거의 없으며 뉴스의 진위성을 확인할 수 있는 자료가 많습니다. 그래서 다시 데이터 수집을 시작했습니다.

저는 뉴스를 두 가지 범주로만 나눕니다. 진짜 뉴스와 가짜 뉴스. '사실이 아닌 것'에는 풍자, 의견 기사, 가짜 뉴스 및 사실에 기반하지 않고 작성된 기타 기사가 포함됩니다.

이번에는 95% 이상의 정확도로 성공했습니다.

가족의 화합을 이루고 AI를 활용해 부모의 소문을 해소하세요

Fakebox라는 모델은 각 기사에 점수를 매기는데, 점수가 매우 낮으면 해당 기사는 가짜이거나, 의견 기사, 풍자 기사 또는 그 밖의 다른 내용일 수 있습니다. 그리고 Fakebox는 REST API 세트도 갖추고 있어서 어떤 환경에도 통합하거나 Docker에 배포할 수 있습니다.

하지만 여전히 단점이 있습니다. 기사가 너무 짧거나 주로 다른 사람의 의견이나 인용문으로 구성되어 있다면, 그것이 사실인지 거짓인지 판단하기 어려울 수 있습니다.

따라서 Fakebox는 최종 해결책이 아니지만 에런 에델 이 모델이 참인지 거짓인지 판별해야 하는 기사에 도움이 되기를 바랍니다.

가족의 화합을 이루고 AI를 활용해 부모의 소문을 해소하세요