HyperAI초신경
Back to Headlines

일본 연구진, 동시 대화 가능한 AI 시스템 J-Moshi 개발

3일 전

일본의 첫 공개 AI 대화 시스템이 인간처럼 동시에 말하고 듣는 기능을 성공적으로 구현했습니다. 나고야 대학의 히가시나카 연구실은 이 시스템, J-Moshi를 개발하여 일본어 대화 패턴을 완벽하게 모방하는 데 큰 진전을 이루었습니다. J-Moshi는 일본어 대화에서 중요한 역할을 하는 짧은 응답인 '아이즈치(aizuchi)'를 효과적으로 활용합니다. 예를 들어 '소우데스네(그렇군요)'와 '나루호도(그래서)' 같은 표현은 일본어에서 영어에 비해 더 자주 사용됩니다. J-Moshi 개발 과정 J-Moshi는 나고야 대학 정보학 연구원 히가시나카 연구실의 연구팀이 4개월 동안 개발한 시스템입니다. 연구팀은 비영리 연구기관 Kyutai에서 만든 영어 Moshi 모델을 적응시키는 과정에서 여러 일본어 음성 데이터셋을 사용해 시스템을 훈련시켰습니다. 가장 큰 데이터셋은 도쿄 대학에서 만든 J-CHAT에서 얻어졌으며, 약 67,000시간의 팟캐스트와 유튜브 오디오를 포함하고 있습니다. 또한 연구실에서 수집하거나 20-30년 전에 수집된 작은 규모의 고품질 대화 데이터셋과, 자체 개발한 텍스트-음성 프로그램으로 작성 대화를 인공 음성으로 변환하여 훈련 데이터를 확대하였습니다. 2024년 1월, J-Moshi의 시연 영상이 소셜 미디어에서 viral하며 큰 주목을 받았습니다. 이 시스템은 기술적 혁신뿐만 아니라, 비본국어 사용자들이 자연스러운 일본어 대화 패턴을 연습하고 이해하는 데 도움이 될 수 있어 언어 학습 분야에서도 유용한 응용 가능성을 보여주었습니다. 연구팀은 콜 센터, 의료 환경, 고객 서비스 등의 상업적 응용 분야도 탐구하고 있으며, 일본어 음성 데이터의 제한성으로 인해 특정 분야나 산업에 시스템을 적응시키는 것이 어렵다는 점을 지적했습니다. 히가시나카 교수는 19년간 NTT 코퍼레이션에서 기업 연구원으로 일한 후 5년 전에 나고야 대학으로 이직하여 현재 AI 연구를 이끌고 있습니다. 그는 소비자 대화 시스템과 음성 에이전트를 개발하는 프로젝트에 참여한 경험이 있으며, 2020년에 나고야 대학 정보학 연구원에서 자신의 연구실을 설립했습니다. 연구실은 20명의 구성원으로 이루어져 있으며, 일본어 대화의 시간적 요소 이해부터 공공 장소에서 AI 가이드를 배치하는 것까지 다양한 분야의 도전 과제에 접근하고 있습니다. "J-Moshi와 같은 기술은 인간 운영자와 함께 작동하는 시스템에 적용될 수 있습니다. 예를 들어 오사카의 NIFREL 수족관에서 독립적으로 루틴 대화를 처리하고, 복잡한 질문이나 특수한 지원이 필요한 경우 방문자를 인간 운영자에게 쉽게 연결할 수 있는 가이드 로봇을 개발했습니다."라고 히가시나카 교수가 설명했습니다. 그의 연구는 고급 AI-인간 협력 시스템을 통해 서비스 품질을 향상시키는 목표를 담고 있는 국가 차원의 '문샷 프로젝트(Moonshot Project)'의 일부입니다. 일본 AI 연구의 기회와 도전 히가시나카 교수는 일본 AI 연구가 직면한 독특한 도전 과제들을 설명했습니다. "일본은 음성 리소스 부족으로 AI 대화 시스템을 훈련시키는 데 어려움을 겪고 있습니다. 개인 정보 보호 문제도 고려해야 합니다." 이와 같은 데이터 부족은 창의적인 해결책을 요구했으며, 연구팀은 컴퓨터 프로그램을 사용해 팟캐스트 녹음에서 각각의 발화 트랙을 분리하는 방법을 개발했습니다. 현재 대화 시스템들은 특히 인터퍼스널 관계와 물리적 환경을 고려해야 하는 복잡한 사회적 상황에서 어려움을 겪고 있습니다. 마스크나 모자 같은 시각적 장애물도 중요한 시각적 단서인 표정을 가리므로 성능에 영향을 미칩니다. NIFREL 수족관에서의 테스트 결과, AI가 사용자의 질문을 처리하지 못할 때 인간 운영자의 개입이 필요하다는 것을 확인했습니다. 연구팀은 이러한 도전을 완화하기 위해 대화 요약 기법과 대화 분석 시스템을 개발하여 운영자가 신속하게 대응할 수 있도록 하고 있습니다. 연구실의 더 넓은 연구 범위는 J-Moshi를 넘어 인간-로봇 상호작용의 다양한 방법을 포함합니다. 사실적인 인간형 로봇을 개발하는 동료 연구자들과 협력하여, 자연스러운 의사소통을 위해 음성, 제스처, 움직임을 조율하는 로봇 시스템을 만드는 중입니다. Unitree 로보틱스에서 제조한 로봇들은 대화 시스템이 단순히 언어적 섬세함뿐만 아니라 물리적 존재와 공간 인식 능력을 갖춰야 하는 최신 AI 기술을 보여줍니다. 연구팀은 정기적으로 대학 캠퍼스 오픈 행사를 통해 일반 대중이 직접 AI 대화 시스템의 발전을 경험할 수 있도록 하고 있습니다. 연구팀의 J-Moshi 관련 논문은 국제 음성 기술 및 연구 컨퍼런스인 Interspeech에서 발표될 예정이며, 2025년 8월 네덜란드 로테르담에서 진행될 예정입니다. "근미래에는 인간이 자연스러운 음성과 제스처를 통해 seemless하게 협력할 수 있는 시스템이 등장할 것입니다. 그런 변화를 가져올 필수적인 기술을 개발하는 것이 저의 목표입니다."라고 히가시나카 교수가 포부를 밝혔습니다. 업계 전문가들은 J-Moshi가 일본어 대화 패턴을 정확하게 재현하는 데 성공한 것에 대해 긍정적으로 평가하며, 이를 통해 일본의 AI 대화 기술이 크게 진보할 가능성이 있다고 보고 있습니다. 나고야 대학의 히가시나카 연구실은 이러한 혁신을 계속해서 선도할 것으로 기대됩니다.

Related Links