HyperAI

OpenAI는 지난 주말에 ChatGPT의 고급 음성 모드를 업데이트해 사용자가 음성으로 대화할 수 있는 기능을 크게 개선했습니다. 이 업데이트로 ChatGPT의 음성은 더욱 자연스럽고 유창해졌으며, "더 섬세한 억양", "현실적인 리듬"(일시정지와 강조를 포함) 그리고 감정 표현이 더욱 정확해졌습니다. 특히 공감과 조롱 같은 감정 표현이 더욱 현실적으로 이루어져, AI와 사람 사이의 대화가 더욱 인간답게 느껴집니다. 이번 업데이트는 OpenAI가 작년에 출시한 GPT-4 기반의 다중 모드 모델에서 이루어졌습니다. 이 모델은 오디오 입력에 빠르게 반응하여, 최대 232밀리초 내에 응답하며 평균 응답 시간은 320밀리초로, 거의 인간의 대화 속도와 비슷합니다. 올 초에는 고급 음성 모드의 작은 업데이트를 통해 중단 빈도와 발음 처리를 개선했지만, 이번 큰 업데이트는 음성 대답의 억양과 리듬을 더욱 자연스럽게 만들었습니다. 특히 일시정지와 강조 부분의 처리가 더욱 생동감 있게 이루어졌습니다. 또한, 업데이트된 시스템은 다양한 감정을 더욱 정확하게 표현할 수 있어, 공감이나 조롱 등의 감정이 포함된 대화에서도 더욱 현실적인 반응을 보입니다. 더 흥미로운 점은 이번 업데이트로 번역 기능이 추가되었다는 것입니다. ChatGPT 사용자는 간단한 지시어를 통해 실시간으로 대화를 번역할 수 있으며, 번역을 멈추거나 다른 언어로 전환할 때까지 계속 번역할 수 있습니다. 이 기능은 전용 음성 번역 앱의 필요성을 줄이고, 사용자 경험을 더욱 향상시키는 역할을 할 것입니다. 현재 이 업데이트된 고급 음성 모드는 모든 유료 ChatGPT 사용자에게 제공되며, 여러 시장과 플랫폼에서 이용 가능합니다. 그러나 OpenAI는 이번 업데이트에도 불구하고 몇 가지 제한 사항이 있음을 명확히 밝혔습니다. 예를 들어, 일부 경우에는 오디오 품질이 약간 저하될 수 있으며, 음성과 억양이 예상치 않게 변할 수 있습니다. 또한, 실제 대화와 일치하지 않는 경우, 예를 들어 광고, 무의미한 말, 또는 배경 음악이 들릴 수도 있다고 하였습니다. OpenAI는 이러한 문제들을 해결하기 위해 계속해서 노력하고 있으며, 오디오의 일관성을 높여나갈 계획입니다. 이번 업데이트는 AI의 음성 인터랙션 경험을 더욱 자연스럽게 만드는 것뿐만 아니라, 인간과 인공지능 간의 소통을 더욱 원활하게 하는 기반이 되었습니다. 음성 모드의 이러한 향상은 AI 기술의 발전과 함께, 사용자들이 더욱 직관적이고 편안하게 AI와 상호작용할 수 있도록 도와줄 것입니다. 전문가 및 산업의 의견 기술 전문가들은 OpenAI의 이번 업데이트가 AI 음성 기술의 중요한 발전 단계라고 평가합니다. 특히, 감정 표현과 실시간 번역 기능의 추가는 AI와 사용자 간의 소통을 더욱 현실적으로 만들어, 다양한 응용 분야에서 활용 가능성을 높였다는 점을 강조합니다. OpenAI는 세계 최고의 인공지능 연구 기관 중 하나로, 그들의 기술 발전은 업계 전반에 긍정적인 영향을 미칠 것으로 기대됩니다. 그러나 여전히 해결해야 할 문제들이 남아 있다는 점을 인식하며, 관련 기업들과 연구자들은 지속적인 개선을 촉구하고 있습니다.

OpenAI, ChatGPT 음성 모드 개선

Related Links