5월 초에 검색엔진이 9일에 출시될 것이라는 사실이 공개되었습니다. 5월 11일, ChatGPT와 GPT-4 업데이트가 5월 13일 오전 10시(현지 시간)에 출시될 것이라고 공식 발표되었습니다. 그러자 샘 알트먼이 직접 나서서 그 소문을 반박하며, "GPT-5도 아니고 검색 엔진도 아니다"라고 말했지만, "마법과 같은 새로운 것"이라고 했습니다. 이후 네티즌들은 다양한 단서를 통해 해당 배포 내용에 대한 심층 분석을 시작했고, 결국 GPT-4.5와 ChatGPT의 통화 기능이 유력한 후보로 떠올랐다.

처음에 일부 네티즌들은 샘 알트만이 구글 I/O 컨퍼런스에서 주목을 훔치려 한다고 농담을 했지만, 제미니 1.5와 소라의 대결과 비교해 볼 때, "뭔가 어려운 일"이 없다면 알트만은 구글 연례 컨퍼런스 전날 업데이트를 내놓는 위험을 감수하고 싶어하지 않을 것입니다.

실제로 그렇습니다. OpenAI의 겉보기에 즉흥적인 온라인 라이브 방송 컨퍼런스는 실제로는 잘 준비된 것이었습니다.

샘 알트만은 이번 OpenAI 봄 업데이트에 참석하지 않았지만, 회사의 CTO인 무리 무라티는 다음을 포함한 일련의 업데이트를 발표했습니다.

GPT-4o
ChatGPT의 음성 상호작용 기능
ChatGPT의 시각적 기능

링크를 클릭하면 전체 라이브 방송을 다시 볼 수 있습니다: [중국어 자막] OpenAI Spring Updates Spring Update Conference | 플래그십 모델 GPT-4o 공식 발표! 완전 무료예요! 실시간으로 소통하세요!

GPT-4o: 모든 사용자에게 무료로 제공되는 음성 강화 기능

GPT-4는 2023년 3월 출시 이후 오랫동안 차트를 장악했습니다. 새로운 모델이 출시될 때마다 비교를 위해 꺼내놓게 되는데, 이것만으로도 그 강력한 성능을 증명하기에 충분합니다. 또한 GPT-4는 현재 단계에서 OpenAI에게 큰 상업적 가치를 지닌 "현금 소"이기도 하며, 머스크는 "개방적이지 않다"고 반복적으로 비판했습니다.

더 중요한 것은, Meta의 오픈소스 Llama, Google의 오픈소스 Gemma, Musk의 오픈소스 Grok에 직면하여 GPT-3.5 기반의 무료 버전 ChatGPT가 두 배의 압박을 받고 있다는 것입니다. GPT-5가 아직 출시되지 않았기 때문에 많은 네티즌들은 OpenAI가 GPT-3.5를 대체할 새로운 버전의 GPT-4를 출시할 것이라고 추측했습니다.

예상대로 오늘의 라이브 방송에서 OpenAI는 모든 사용자가 무료로 사용할 수 있는 새로운 버전인 GPT-4o를 출시했으며, 유료 사용자는 무료 사용자의 용량 제한의 5배를 사용할 수 있습니다. "o"는 "옴니(omni)"를 의미하는데, 이는 보다 자연스러운 인간과 컴퓨터 상호작용을 지향한다는 것을 의미합니다.

OpenAI의 CTO인 무리 무라티는 GPT-4o가 GPT-4 수준의 AI 기능을 제공하며 음성, 텍스트, 비전을 기반으로 추론을 수행할 수 있다고 소개했습니다. 텍스트, 오디오, 이미지 입력을 어떤 조합으로든 수용하고, 텍스트, 오디오, 이미지 출력을 어떤 조합으로든 생성할 수 있습니다.

링크를 클릭하면 GPT-4o 데모 영상을 볼 수 있습니다.
https://www.bilibili.com/video/BV1PH4y137ch

GPT-4o 이전에는 음성 모드를 사용하여 ChatGPT와 대화할 때의 평균 지연 시간은 2.8초(GPT-3.5)와 5.4초(GPT-4)였습니다. 대화형 경험을 최적화하기 위해 OpenAI는 텍스트, 시각, 오디오에 대한 새로운 종단 간 모델을 훈련했습니다. 즉, 모든 입력과 출력이 동일한 신경망으로 처리되어 정보 손실이 줄어듭니다.

성능 측면에서 GPT-4o는 오디오 입력에 232밀리초 이내에 응답할 수 있으며, 평균 반응 시간은 320밀리초입니다. 이는 대화에서 사람의 반응 시간과 비슷합니다. 또한, GPT-4o는 영어 및 코드 텍스트에서는 GPT-4 Turbo와 동등한 성능을 보이며, 영어가 아닌 언어 텍스트에서도 상당한 개선을 보여 50개 언어에서 품질과 인식 속도가 향상되었습니다. 동시에 API는 두 배 빠르지만 가격은 50%보다 저렴합니다.

또한, GPT-4o의 추론 능력도 크게 향상되었습니다. 공식 데이터에 따르면 GPT-4o는 0-샷 COT MMLU(상식적 질문)에서 88.7%의 새로운 최고 점수를 기록했습니다.

OpenAI의 윌리엄 페두스는 LMSys 목록에 GPT-4o의 순위를 게시했습니다. 팀이 GPT-4o에 붙인 이름도 매우 흥미롭습니다. 'im-also-a-good-gpt2-chatbot'입니다.

그는 또한 인코딩 능력 등 더 어려운 프롬프트 세트에서 GPT-4o의 수준이 OpenAI의 이전 가장 진보된 대형 모델보다 +100 ELO 더 높다고 소개했습니다.

윌리엄 페더스는 GPT-4o가 세계 최고의 모델일 뿐만 아니라, 최첨단 모델의 선례를 만드는 ChatGPT에서 무료로 제공된다고 단언했습니다.

어느 정도까지 GPT-4o는 OpenAI의 "오픈 소스" 제품에 대한 업데이트로 볼 수 있습니다. "OpenAI가 공개되지 않았다"는 반복적인 비판에 대해 샘 알트만은 자신의 블로그에서 이렇게 말했습니다. "OpenAI의 사명 중 하나는 사람들에게 강력한 인공지능 도구를 무료(또는 할인된 가격)로 제공하는 것입니다. ChatGPT에서 세계 최고의 모델을 광고나 다른 어떤 것도 없이 무료로 제공한다는 사실이 매우 자랑스럽습니다."

샘 알트먼 또한 GPT-4o의 성능을 칭찬했습니다. "새로운 음성(및 비디오) 모드는 제가 사용해 본 최고의 컴퓨팅 인터페이스입니다. 영화 속 인공지능을 보는 듯한 느낌이 들지만, 그 진정성은 여전히 저를 약간 놀라게 합니다. 중요한 변화 중 하나는 인간 수준에 도달하는 반응 속도와 표현력입니다."

이후 알트만은 자신의 계정에 "그녀"라는 이름을 게시하며, 그의 새로운 모델이 "그녀의 시대"를 열 것이라고 암시했다.

GPT-4o API에서는 모든 고객이 음성 기능을 사용할 수 있는 것은 아니라는 점에 유의하세요.

OpenAI는 GPT-4o가 학습 데이터 필터링, 학습 후 모델 동작 개선 등의 기술을 통해 다양한 모드의 보안을 고려하여 설계되었다고 밝혔습니다. 또한 이 팀은 음성 출력을 보호하기 위해 새로운 보안 시스템도 만들었습니다.

그럼에도 불구하고 OpenAI는 앞으로 몇 주 안에 GPT-4o용 새로운 오디오 및 비디오 기능을 "신뢰할 수 있는 소수의 파트너"에게 먼저 출시할 계획이라고 말하며, 남용 위험을 언급했습니다.

GPT-4o의 텍스트 및 이미지 기능은 오늘부터 ChatGPT에서 사용할 수 있습니다. 앞으로 몇 주 안에 OpenAI는 ChatGPT Plus에서 GPT-4o를 적용한 새로운 버전의 음성 모델 알파를 출시할 예정입니다. 이제 개발자는 API에서 텍스트 모드와 시각적 모드 모두로 GPT-4o에 액세스할 수 있습니다.

그녀의 시대가 왔습니다: ChatGPT 감정 음성 상호 작용

올해 2월 초, OpenAI 개발자 관계 부문의 전임 책임자는 ChatGPT의 궁극적인 형태는 단순한 채팅이 아니라고 언급했습니다.

5월 11일, 샘 알트먼은 팟캐스트에서 OpenAI가 ChatGPT의 음성 기능 품질을 지속적으로 개선하고 향상시킬 것이며, 음성 상호작용이 미래의 상호작용 방법을 위한 중요한 방식이라고 말했습니다.

오늘의 기자 회견에서 OpenAI는 ChatGPT의 음성 품질을 개선한 중간 결과도 시연했습니다. 음성 상호작용은 GPT-4o를 기반으로 이루어졌으며 응답 속도가 크게 개선되었습니다.

구체적으로 ChatGPT의 업그레이드와 업데이트는 주로 실시간 상호작용, 다중 모드 입력 및 출력, 감정 인식이라는 세 가지 측면에 반영됩니다.

실시간 상호작용 측면에서, 라이브 데모에서 ChatGPT는 질문자의 모든 질문에 거의 즉시 답변할 수 있습니다. 질문자가 ChatGPT의 답변을 방해하면 ChatGPT도 중단될 수 있습니다. 무리 무라티는 또한 청중의 요청에 따라 GPT-4o의 실시간 번역 기능을 시연했습니다.

다중 모드 입력/출력에 대해서는 자세히 설명할 필요가 없습니다. GPT-4o 기반의 ChatGPT는 텍스트, 음성, 시각 정보를 인식하고, 필요에 따라 어떤 형태로든 답변할 수 있습니다.

감정 인식과 감정 피드백 측면에서, 업그레이드된 ChatGPT는 셀카를 기반으로 사람의 얼굴 표정을 빠르게 분석할 수 있습니다. 또한 대화 상대의 요구에 따라 과장된 드라마틱함에서 차갑고 기계적인 느낌까지 음색을 조절할 수 있으며, 심지어 노래까지 부를 수 있어 뛰어난 가소성을 보여줍니다.

이와 관련하여 무리 무라티는 "이러한 모델이 점점 더 복잡해지고 있다는 것을 알고 있지만, 상호작용 경험이 더욱 자연스럽고 간단해지기를 바랍니다. 그러면 사용자 인터페이스에 전혀 신경 쓸 필요가 없고, 매우 중요한 GPT와의 협업에만 집중할 수 있을 것입니다."라고 말했습니다.

또한 추론 분석 측면에서 GPT-4o는 ChatGPT의 시각적 기능도 향상시킵니다. 사용자가 찍은 사진을 통해 ChatGPT는 이미지의 내용을 빠르게 탐색하고 관련 질문(예: 수학 문제를 풀기 위해 사진을 찍는 방법)에 답할 수 있습니다.

또한 공유된 코드 이미지를 기반으로 코드의 구체적인 내용을 설명하고, 코드의 변수 중 하나가 변경되면 어떤 구체적인 영향이 발생하는지 분석할 수 있습니다.

GPT-4o에 차트를 제공하면 차트의 내용을 자세히 분석할 수 있습니다.

OpenAI의 이 혁신적인 시도는 ChatGPT의 적용 범위를 음성, 텍스트, 시각으로 확장하여 앞으로 인간과 컴퓨터의 상호작용이 더욱 자연스럽고 원활해질 수 있음을 보여줍니다.

이에 대해 OpenAI는 시각 및 청각 기능을 갖춘 AI 음성 비서가 스마트폰과 동일한 혁신적 잠재력을 가지고 있다고 밝혔습니다. 이론상으로는, AI 비서가 할 수 없는 다양한 일을 할 수 있다. 예를 들어, 논문이나 수학 튜터 역할을 하거나, 교통 표지판을 번역하고, 자동차 문제를 해결하는 데 도움을 줄 수 있다.

마지막 말

GPT가 등장한 이래로 OpenAI는 빅 모델 시대의 "측정기"로 여겨져 왔습니다. 실리콘 밸리의 전통적인 거대 기업들을 살펴보면,

Microsoft는 OpenAI와 긴밀한 관계를 맺고 있습니다. 이 회사는 재무적 투자자일 뿐만 아니라 GPT 모델을 자사 사업에 적용하고 OpenAI에 클라우드 서비스를 제공하고 있습니다.
애플은 올해부터 생성 AI에 대한 투자를 늘리기 시작했고 자체적인 대규모 모델도 출시했지만, 늦게 시작했기 때문에 OpenAI의 지위를 흔들 수 있을지 여부는 아직 불확실합니다. 동시에 Apple이 이미 OpenAI와 Google과 대규모 모델에 대해 협력하고 있다는 보도도 있습니다.
세계 최대의 클라우드 인프라 공급업체인 Amazon은 자체 대형 모델인 Amazon Titan을 출시했지만, 이는 클라우드 호스팅 서비스 Bedrock의 일부에 불과합니다. Amazon도 Anthropic에 투자했지만, OpenAI와 경쟁하기는 여전히 어려워 보입니다.

비교해보면, 구글은 OpenAI와 경쟁할 수 있는 가장 큰 희망을 가진 회사로 보인다. 심도 있는 기술적 축적(Transformer 아키텍처는 Google에서 제공)이 있을 뿐만 아니라, 대규모 모델이 강점을 보여줄 수 있는 풍부한 생태계도 갖추고 있습니다.

하지만 구글을 따르는 독자라면 이 오래된 거인이 대형 모델(생명을 구하기 위해 개 머리)이 유행하는 시대에 "왕펑" 체격을 가지고 있다는 것을 알 수 있을 것입니다. 바드와 팔름2가 성능 면에서 GPT-4보다 떨어지고, 파괴적인 걸작 제미니 1.5가 출시되었지만 소라에 가려졌고, 3월에 예정된 구글 I/O 컨퍼런스가 최고의 홍보 기간에 오픈AI가 "즉흥적으로" 생방송을 했기 때문에 가려졌습니다...

오늘 아침(5월 14일) OpenAI가 "세계 최고의 모델"을 출시했습니다. 피차이가 오늘 기자회견을 보고 하룻밤 사이에 "대본을 바꿀"지 궁금하네요?

답은 내일 아침에 공개될 예정입니다. Google의 복귀를 기대하며, HyperAI는 계속해서 직접적인 보고서를 제공할 것입니다!

GPT-4o 용을 죽이는 충격! ChatGPT는 누구나 무료로 이용할 수 있는 다중 모드 실시간 대화형 애플리케이션입니다. 음성 상호작용이 원활합니다. 이건 우승작이에요.

GPT-4o: 모든 사용자에게 무료로 제공되는 음성 강화 기능

그녀의 시대가 왔습니다: ChatGPT 감정 음성 상호 작용

마지막 말