HyperAI초신경

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

7년 전
정보
Sparanoid
特色图像
기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

Google Translate가 출시된 지 거의 15년이 되었지만, 여전히 Android 휴대폰이 매우 빠르다는 생각을 고집하고 있습니다.

GT에 대한 가장 최근의 주요 업데이트는 2016년에 도입된 인공신경망 기계 번역(GNMT) 시스템인데, 여기에는 9개 언어로 번역할 수 있는 8개의 인코더와 8개의 디코더가 포함됩니다.

그들은 문장을 구분할 뿐만 아니라 단어도 구분하는데, 이를 통해 희귀한 단어를 처리합니다. 사전에 없는 단어의 경우 NMT는 아무런 참조도 하지 않습니다. 예를 들어, "Vas3k"라는 문자 그룹을 번역하는 것을 생각해 보세요. 이 경우, GMNT는 단어를 여러 조각으로 나누고 번역을 복구하려고 시도합니다.

하지만 여전히 "卡顿"가 "매우 빠르다"로 번역된 이유를 설명할 수는 없습니다. 게다가 이 번역이 최근 국내 엔지니어들 사이에서 널리 퍼진 농담거리가 된 후에도, 구글의 자랑스러운 크라우드소싱 오류 수정은 여전히 이 잘못된 번역에 성공적으로 개입하지 못했습니다.

우리가 기계 번역에 대한 연구를 시작하게 된 계기가 바로 이 작은 농담이었습니다. 이 글에서는 규칙 기반 기계 번역(RBMT), 사례 기반 기계 번역(EBMT), 통계적 기계 번역(SMT), 신경망 기계 번역(NMT)과 같은 주류적 방법을 비롯하여 지난 60년간 기계 번역의 발전을 살펴보고, Google과 Yandex와 같은 제조업체의 주요 알고리즘 분석도 살펴봅니다.

여러분은 "기계 번역 1933-1984" 시리즈 기사의 전반부를 읽고 계십니다.

느린 진전의 첫 40년

기계 번역은 냉전이 한창이던 1933년에 처음 등장했습니다.

당시 소련의 과학자 표트르 트로얀스키는 소련 과학 아카데미에서 "언어 번역과 텍스트 인쇄에 사용할 수 있는 기계를 개발하자"고 제안했습니다. 그 기계는 매우 단순했습니다. 4개 언어로 된 카드와 타자기, 그리고 옛날식 영화 카메라로만 구성되어 있었습니다.

작업자는 텍스트에서 첫 번째 단어를 선택하고, 해당 카드를 찾은 다음, 사진을 찍고, 타자기에 형태적 특징(명사, 복수형, 소유격 등)을 입력합니다. 타자기는 이러한 특징 중 일부에 따라 번역하여 자기 테이프와 카메라 필름에 담아냈습니다.

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

간단한 번역은 가능했지만 당시에는 여전히 "쓸모없는" 발명품으로 여겨졌습니다. 불행히도 트로얀스키는 이 발명품에 20년을 쏟았고 결국 협심증으로 사망했으며, 이 발명은 끝나게 되었습니다. 1965년 소련 과학자들이 이 기계를 발견하기 전까지는 전 세계 사람 중 그 존재를 아는 사람은 거의 없었습니다.

1954년 1월 7일, 냉전이 시작되면서 역사상 최초의 진정한 번역기인 IBM 701이 뉴욕의 IBM 본사에 등장했습니다. 60개의 러시아어 문장을 영어로 성공적으로 번역했습니다. 이것이 유명한 조지타운-IBM 실험이었습니다.

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

하지만 완벽한 속임수는 작은 세부 사항을 가리는 것이었습니다. 번역된 예시가 모호성을 배제하기 위해 신중하게 선택되고 테스트되었다는 사실을 언급한 사람은 아무도 없습니다. 일상생활에서 이 시스템은 간단한 번역 설명서와 다를 바 없습니다.

그럼에도 불구하고 현대 자연어 처리의 기초는 미국을 포함한 과학자들에 의해 지속적인 실험, 연구, 개발을 통해 만들어졌습니다. 오늘날의 모든 검색 엔진, 스팸 필터, 개인 비서는 이를 기반으로 합니다.

규칙 기반 기계 번역(RBMT)

규칙 기반 기계 번역이라는 아이디어는 1970년대에 처음 등장했는데, 당시 과학자들은 번역가의 작업을 주의 깊게 관찰하고 컴퓨터가 그 동작을 반복하도록 강제하려고 시도했습니다. 이러한 시스템에는 다음이 포함됩니다.

  • 이중어 사전(RU -> EN)

  • 각 언어에는 일련의 언어적 규칙이 있습니다(예: -heit, -keit, -ung 등과 같은 특정 접미사로 끝나는 명사). 이것이 언어의 근원입니다.

필요한 경우 시스템은 이름 목록, 철자 교정기, 음역기 등의 몇 가지 기능을 추가할 수도 있습니다.

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

PROMPT와 Systran은 RBMT 시스템의 가장 유명한 예이지만, 이들 역시 약간의 차이점과 하위 종류가 있습니다.

  • 직접 기계 번역

이것은 가장 직접적인 기계 번역 유형입니다. 이 기능은 텍스트에 있는 단어를 하나하나 번역하고, 형태론을 약간 수정하고 문법을 조정하여 전체 문단이 더 정확하게 번역된 것처럼 보이도록 합니다. 이러한 수정 규칙은 전문 언어학자들이 설정합니다.

하지만 이러한 번역 규칙이 가끔 실패하여 번역 결과가 좋지 않은 경우가 있습니다. 현대 체계에서는 이 규칙을 전혀 사용하지 않지만, 현대 언어학자들에게는 매우 인기가 있습니다.

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)
  • 문법 구조 기반 기계 번역

직역과 비교해 볼 때, 우리는 먼저 문장의 문법적 구조를 결정합니다. 이는 학교에서 선생님이 가르쳐 주신 것과 같습니다. 그런 다음 개별 단어 대신 전체 구조를 분석하는데, 이는 이론적으로 번역에서 비교적 좋은 어순 변환을 얻는 데 도움이 됩니다.

그러나 실제로 이러한 접근 방식에는 여전히 한계가 있습니다. 한편으로는 일반적인 문법 규칙을 단순화하지만, 다른 한편으로는 개별 단어에 비해 단어 구조가 늘어나기 때문에 번역이 더 복잡해집니다.

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)
  • 중간 언어의 기계 번역

이 접근 방식에서는 원본 텍스트가 중간 표현으로 변환되어 모든 세계 언어(인터링구아)로 통합됩니다. 이는 데카르트가 꿈꿨던 것과 같습니다. 즉, 보편적인 규칙을 따르고 번역을 간단한 "왕복" 작업으로 바꾸는 메타언어입니다. 이를 통해 인터링구아는 모든 대상 언어로 번역할 수 있습니다.

이러한 변환으로 인해 인터링구아는 종종 전이 기반 메타언어 시스템과 혼동됩니다. 차이점은 언어 규칙은 언어 쌍이 아닌 각 언어와 언어 쌍에 따라 달라진다는 것입니다. 즉, 우리는 인터링구아 시스템에 세 번째 언어를 추가하고 세 언어 간 번역이 가능한데, 이는 문법 구조에 기반한 번역 시스템에서는 달성하기 어렵습니다.

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

완벽해 보이지만 실제로는 그렇지 않습니다. 이러한 중간 언어를 만드는 것은 매우 어려운 일이며, 많은 과학자들이 평생을 이를 연구하는 데 바쳤습니다. 그것들은 큰 성공을 거두지는 못했지만, 그 덕분에 우리는 이제 형태학적, 구문적, 심지어 의미적 수준에서도 표현을 갖게 되었습니다.

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

그러나 RBMT는 형태학적 정확성(단어를 혼동하지 않음), 결과의 재현성(모든 번역자가 동일한 결과를 얻음), 주제 영역에 맞게 조정할 수 있는 능력(예: 경제학자나 엔지니어에게 용어를 가르칠 때) 등의 장점도 있습니다.

누군가가 이상적인 RBMT를 만드는 데 성공하고 언어학자들이 모든 철자 규칙을 추가하여 개선하더라도, 대처할 수 없는 예외는 항상 존재할 것입니다. 예를 들어, 영어의 불규칙 동사, 독일어의 분리 가능한 접두사, 러시아어의 접미사, 그리고 사람들이 자신을 표현하는 다양한 방식입니다.

이런 미묘한 차이를 복구하는 데 드는 비용은 엄청날 것입니다. 동음이의어를 잊지 마세요. 동음이의어란 같은 단어가 맥락에 따라 다른 의미를 가질 수 있고, 이로 인해 같은 문장을 여러 가지로 번역할 수 있다는 것을 의미합니다. 예를 들어, "나는 언덕에서 망원경을 사용하는 남자를 봤다"라고 말할 때, 얼마나 많은 의미가 담겨 있다고 생각하시나요?

언어학자들이 선호하는 점은 언어가 고정된 규칙에 따라 발전하지 않는다는 것입니다. 냉전 40년 동안 기계 번역이 발전했지만 번역의 정확성과 편의성을 향상시킬 수 있는 명확한 해결책은 찾지 못했습니다.

그러므로 RBMT는 오랫동안 사라졌습니다.

예제 기반 기계 번역(EBMT)

1980년대에 이르러서는, 영어를 아는 사람이 거의 없었던 일본에서는 임박한 세계화에 최대한 빨리 발판을 마련하기 위해 기계 번역이 시급히 필요해졌습니다. 국가 정책의 강력한 지원으로 일본은 당시 기계 번역에 가장 관심을 가진 나라가 되었습니다.

규칙 기반 기계 번역(RBMT)은 영어에서 일본어로 번역하기 어렵습니다. 번역 과정에 거의 모든 단어를 재배열해야 하고 새로운 단어도 포함되기 때문입니다. 이로 인해 일본어 번역자는 새로운 번역 아이디어를 찾아야 합니다.

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

그래서 1984년 교토 대학의 나가오 마코토는 반복되는 번역을 기성 구문으로 대체하는 아이디어, 즉 소위 예제 기반 기계 번역(EBMT)을 제안했습니다. 더 많은 사례를 입력할수록 번역이 더 빠르고 정확해집니다.

EBMT 아이디어의 등장은 과학자들의 혁신적 영감에 불을 지핀 불꽃과 같았습니다. 이는 기계 번역의 발전에 큰 의미가 있지만 아직 획기적인 혁신은 아닙니다. 하지만 5년 후에는 이를 바탕으로 한 혁신적인 통계적 번역이 등장하게 될 것입니다.

다음 기사 미리보기

  • 1990년대~2000년대는 통계적 기계 번역(SMT)이 주도한 기계 번역 시대였습니다.

  • 인공신경망 기계 번역(NMT)은 마침내 2015년에 처음 선보였습니다.

  • Google과 Yandex의 고급 게임 플레이;

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

역사기사 (이미지를 클릭하시면 읽으실 수 있습니다)

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

10월 24일이 프로그래머의 날인 이유는? 》

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

"이 종이는 독이 있어요!" 》

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

"친지들에게 인공지능을 어떻게 설명해야 할까?"

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)

하이퍼AI

공개 계정 ID: HyperAI

에 집중하다

기계번역 개발 60년 됐는데, 구글은 왜 아직도 "카나"를 "빠른"으로 번역할까 (1부)