구글 제미니 시대가 왔습니다! 검색 기능을 강화하고 온 가족을 강화하기 위해 Gemini 1.5 Pro가 200만 토큰으로 업그레이드되었습니다.

3월 중순, 구글은 구글 I/O가 5월 15일 베이징 시간 오전 1시에 개최될 것이라고 발표했습니다. 가장 많은 논의가 있어야 할 컨퍼런스 개막이 다가오자, "오랜 라이벌"인 OpenAI가 갑자기 등장하여 예정보다 하루 앞당겨 단 27분 만에 혁신적인 걸작 GPT-4o를 공개하며 "그녀의 시대"에 새로운 AI 패권이 등장했습니다.
Nvidia 과학자 Jim Fan이 GPT-4o에 대한 평가에서 말했듯이,Google I/O 컨퍼런스 전에 OpenAI가 GPT-4o를 출시한 것은 시간을 벌기 위한 현명한 결정이었습니다.
홍보 전략에 있어서 두 진영 간의 경쟁은 차치하고, OpenAI의 갑작스러운 움직임은 구글의 Gemni 역시 음성 상호작용 단계에 도달했다는 것을 의미할 수도 있습니다. Google I/O가 시작되기 전, Google 공식 계정에서는 제미니와의 음성 상호작용 영상을 공개했습니다.시연에서 제미니는 휴대폰 카메라를 통해 실시간으로 장면을 인식할 수 있을 뿐만 아니라, 원활한 음성 상호 작용도 수행할 수 있었습니다.
구글이 이 데모를 공개한 의도는 자명하지만, 댓글에서는 이 영상이 가짜인지 의심하는 목소리도 있습니다. 결국 "이전에도 영상이 있었으니까요". 오늘의 기조연설에서 피차이는 "음성 상호작용" 기능에 대한 실제 테스트를 진행하지는 않았지만, 데모를 통해 다시 한번 GPT-4o와 유사한 기능을 보여주었습니다.
구체적으로, 구글 CEO인 순다르 피차이와 임원 그룹은 약 2시간 동안의 기조 연설에서 한꺼번에 다음과 같이 소개했습니다.
- Gemini 1.5 Pro 업데이트
- 제미니 2.5 플래시
- 프로젝트 아스트라
- AI 개요
- Veo와 Imagen 3
- …
전체 라이브 리플레이를 보려면 클릭하세요:[중국어-영어] Google I/O 2024 기조연설 컨퍼런스 전체 버전 | Gemini 1.5 Pro는 검색 엔진을 개편하고 토큰을 200만 개로 업그레이드했습니다!】
Gemini 1.5 Pro: 토큰 200만 개로 확장
어제 이른 아침 GPT-4o가 출시된 후, 모두가 "대규모 모델 실시간 호출"의 충격에서 벗어났습니다. 이는 또한 OpenAI가 업계 경쟁을 새로운 차원으로 끌어올렸다는 것을 의미하므로, Google은 이에 발맞춰 나가야 합니다. 회사의 "가장 크고 강력한" AI 모델인 제미니는 회사를 위한 사다리를 만들어야 합니다.

올해 2월, 구글은 제미니 1.5 출시를 발표했습니다. 제미니 1.5 프로는 초장기 컨텍스트에서 최대 100만 개의 토큰을 지원할 수 있으며, 이를 통해 동일 기간의 대형 모델과의 토큰 수 격차가 더욱 벌어졌습니다. 오늘 구글은 다시 한번 컨텍스트 창 제한을 깨뜨렸습니다.피차이는 제미니 1.5 프로의 컨텍스트 창이 200만 개의 토큰으로 확장되고 개발자를 대상으로 비공개 미리보기로 제공될 것이라고 발표했습니다.

동시에 피차이는 개선된 버전의 제미니 1.5 프로가 전 세계 모든 개발자에게 제공될 것이며, 100만 토큰 컨텍스트 버전은 현재 35개 언어로 제공되는 제미니 어드밴스드에서 소비자에게 직접 제공될 것이라고 발표했습니다.
또한 피차이는 제미니 1.5 프로가 지난 몇 달 동안 알고리즘 개선을 통해 더욱 강화되었으며, 코드 생성, 논리적 추론 및 계획, 다중 라운드 대화, 오디오 및 이미지 이해 측면에서 큰 개선이 있었다고 밝혔습니다. Gemini API 및 AI Studio에서는 이미지 및 비디오 외에도Gemini 1.5 Pro는 오디오를 추론하고 시스템 명령이라는 기능을 통해 지시할 수도 있습니다.

이후 피차이는 Google Workspace의 Gemini 업데이트를 소개했는데, 여기에는 Gmail, Docs, Drive, Slides, Sheets의 Gemini가 Gemini 1.5 Pro로 업그레이드되고, Gmail 모바일 앱에서 새로운 기능(요약 이메일, 상황에 맞는 스마트 답장, Gmail Q&A)이 출시되고, "Help me write"에서 다중 음성 쓰기가 지원된다는 내용이 포함되었습니다.
Gemini 1.5 Flash: 100만 개의 토큰, 초장기 컨텍스트, 다중 모달리티
모두가 제미니 1.5 업데이트가 "그저 그런 것"이라고 생각했을 때, 딥마인드 CEO 데미스 하사비스가 천천히 나타나 그날의 첫 번째 놀라움을 가져왔습니다. 바로 제미니 1.5 플래시입니다.

특히, 가벼운 모델인 Gemini 1.5 Flash는 Gemini 1.5 Pro의 개량된 버전으로, 대용량, 고빈도의 대규모 작업, 더욱 비용 효율적인 서비스, 획기적인 장기 컨텍스트 윈도우에 최적화되어 있습니다. 동시에,Gemini 1.5 Flash는 Gemini 1.5 Pro와 마찬가지로 멀티모달 기능을 갖추고 있어 텍스트뿐만 아니라 오디오, 비디오, 이미지도 분석할 수 있습니다.
데미스 하사비스는 제미니 1.5 플래시가 요약, 채팅 애플리케이션, 이미지 및 비디오 캡션, 긴 문서와 표에서 데이터 추출 등의 작업에 탁월하다고 말했습니다. Gemini 1.5 Pro는 증류를 통해 학습하여 가장 필수적인 지식과 기술을 더 큰 모델에서 더 작고 효율적인 모델로 전달했기 때문입니다.

또한 데미스 하사비스는 제마에 대한 최신 소식도 소개했습니다. 구글은 획기적인 성능과 효율성을 달성하기 위해 새로운 아키텍처를 채택한 차세대 개방형 인공지능 혁신 모델인 Gemma 2 출시를 발표했으며, 6월에 공식 출시될 때 새로운 크기를 출시할 예정입니다.
프로젝트 아스트라: 실시간 멀티모달 AI 에이전트
Google I/O가 개최되기 전 많은 공개와 추측이 있었지만, AI 어시스턴트 픽시에 대한 기대가 가장 컸습니다. 일부 언론에서는 구글이 제미니 기반의 새로운 픽셀 AI 어시스턴트인 픽시를 출시할 것으로 예상된다고 보도했습니다. 픽시는 멀티모달 기능을 갖추고 지도나 Gmail 등 사용자 기기에 저장된 정보를 통해 더욱 개인화된 서비스를 제공할 수 있습니다.
그러나 픽시는 예상대로 등장하지 않았고, 다중 모드 이해와 실시간 대화 기능을 갖춘 프로젝트 아스트라로 대체되었습니다.

데미스 하사비스는 구글이 다중 모드 정보를 이해할 수 있는 AI 시스템 개발에 있어 격려적인 진전을 이루었다고 말했습니다.하지만 실시간 대화가 이루어질 수 있을 정도로 대응 시간을 단축하는 것은 어려운 일입니다.지난 몇 년 동안, 팀은 모델이 인지하고, 추론하고, 대화하는 방식을 개선하고, 상호작용의 리듬과 질을 더 자연스럽게 느끼게 하기 위해 열심히 노력해 왔습니다.
현재 이 팀은 Gemini를 기반으로 한 프로토타입 에이전트를 개발했습니다. 이 에이전트는 비디오 프레임을 지속적으로 인코딩하고, 비디오 및 음성 입력을 이벤트 타임라인으로 결합하고, 이 정보를 캐싱하여 효율적인 호출을 수행함으로써 정보 처리 속도를 높입니다.

동시에,Google은 음성 모델을 사용하여 에이전트의 음성을 향상시켜 더 다양한 음조를 표현할 수 있도록 했습니다.이를 통해 사용 맥락을 파악한 후 대화에서 빠르게 응답할 수 있습니다.
이는 사람들에게 OpenAI가 어제 아침 시연한 ChatGPT의 새로운 버전을 떠올리게 하지 않을 수 없습니다. 또한 실시간 대화이므로 상황이나 사용자 요청에 따라 톤을 변경할 수 있습니다. Google의 비디오 데모와는 달리 ChatGPT는 현장에서 실시간으로 테스트되었으며 온라인에서 많이 묻는 질문에 답했습니다. 오늘날 GPT-4o 기반의 ChatGPT는 모든 사용자에게 무료로 공개되었지만, 개인정보 보호 문제로 인해 오디오 및 비디오 기능은 아직 출시되지 않았습니다.
Veo 및 Imagen 3: 비디오 + 이미지
Google은 또한 최신 비디오 생성 모델인 Veo와 고품질 텍스트-이미지 변환 모델인 Imagen 3을 출시했습니다.
안에,Veo는 Google의 가장 강력한 비디오 생성 모델입니다.소라와 경쟁하기 위해 디자인된 것인지는 모르겠어요.
Veo는 다양한 영화적, 시각적 스타일로 1분 이상의 영상 길이를 가진 1080p 해상도 영상을 생성할 수 있습니다. Google은 자연어와 시각적 의미론에 대한 깊은 이해를 바탕으로 생성하는 동영상이 사용자의 창의적인 아이디어를 완벽하게 표현하고, 프롬프트의 톤을 정확하게 포착하며, 더 긴 프롬프트에 대한 세부 정보를 제공할 수 있다고 밝혔습니다.
동시에, Veo가 만든 영상은 일관되고 일관성이 있어서 촬영 내내 사람, 동물, 사물의 움직임이 더욱 현실적으로 보입니다.
기술적인 측면에서 Veo는 비디오 모델 생성, GQN, DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet 및 Lumiere 통합, 아키텍처, 스케일링 규칙 및 기타 기술 결합을 통해 품질과 출력 해상도를 개선하는 등 Google이 수년간 축적한 경험을 바탕으로 합니다.

마찬가지로 Imagen 3은 Google의 최고 품질의 텍스트-이미지 모델입니다.자연어와 프롬프트 뒤에 숨은 의도를 더 잘 이해하고 작은 세부 사항을 더 긴 프롬프트에 통합할 수 있습니다.이러한 높은 수준의 이해는 모델이 다양한 스타일을 파악하는 데에도 도움이 됩니다.
AI 개요: Google 검색의 빅 모델 시대
25년 전, Google 검색은 사람들이 인터넷의 복잡한 정보를 더 잘 이해할 수 있도록 돕기 위해 탄생했습니다. 사람들은 이 엔진에서 다양한 질문에 대한 답을 검색할 수 있습니다. 오늘날 제미니의 등장으로 Google 검색은 새로운 차원으로 도약했으며, 사람들이 지식을 습득하고 질문에 답하는 방식을 새롭게 정의했습니다.
이에 대해 구글은 컨퍼런스에서 "무엇을 생각하든, 무엇을 성취하고 싶든, 그냥 물어보세요. 구글이 당신을 찾아드립니다."라고 밝혔습니다.

Google은 사람, 장소, 사물에 대한 1조 개가 넘는 실시간 정보를 보유하고 있으며, 이를 신뢰할 수 있는 품질 시스템과 결합하여 사용자에게 웹에서 최고의 콘텐츠를 제공합니다. Gemini를 추가하면 검색에서 새로운 에이전트 기능이 추가되고 Google 검색의 가능성이 확장됩니다.
그 중에서도 가장 주목받는 것은 AI 오버뷰 기능의 출시다. AI 개요를 사용하면 사용자가 직접 모든 정보를 조각조각 모으지 않고도 질문을 할 수 있습니다. Google 검색은 다양한 관점과 심층적인 탐색을 위한 링크를 포함하여 정보 개요를 제공합니다.
Google 검색 부사장인 리즈 리드는 컨퍼런스에서 "AI Overviews는 오늘부터 미국 내 모든 사람이 이용할 수 있게 되며, 올해 말까지 AI Overviews가 전 세계 10억 명이 넘는 Google 검색 사용자에게 서비스를 제공할 것으로 예상됩니다."라고 말했습니다.
사실, 이것은 단지 첫 단계일 뿐입니다. 우리는 AI 개요를 통해 더욱 복잡한 문제를 해결할 수 있도록 하고 있습니다. 이를 실현하기 위해,Google 검색에 다단계 추론 기능을 도입했습니다. "

간단히 말해서, 다단계 추론은 사용자의 전체 문제를 구성 요소로 분해하고 어떤 문제를 어떤 순서로 해결해야 하는지 결정하는 것입니다.Google 검색은 실시간 정보와 순위를 기반으로 질문에 대한 추론을 위해 가장 유용한 정보를 사용합니다.
예를 들어, 사용자가 위치를 검색하면 Google 검색은 2억 5천만 개 이상의 장소 정보와 해당 장소의 평점, 리뷰, 영업 시간 등을 포함한 실제 정보를 기반으로 응답합니다. 사용자가 이러한 정보를 검색하려면 몇 분 이상 걸리지만 Google 검색은 몇 초 안에 완료할 수 있습니다.

Google 검색은 기본적인 정보 검색을 제공하는 것 외에도 고급 추론 및 논리적 계획 작업을 수행하여 사용자가 식사, 여행, 파티, 데이트, 운동 등의 활동을 계획하는 데 도움을 주어 사용자의 삶을 더욱 편리하게 만들어줍니다.
마침내,텍스트나 그림으로 정확하게 표현할 수 없는 질문에 대해 Google은 해결책도 제공했습니다. 곧 비디오 질문 기능을 출시할 예정입니다.이는 앞으로 Google 검색 인터페이스가 더욱 다양해질 것이라는 의미입니다.
Trillium: 칩당 4.7배 더 높은 컴퓨팅 성능
로이터에 따르면 인공지능 데이터 센터 칩 시장에서 엔비디아는 약 80%의 시장 점유율을 차지하고 있으며, 나머지 20%는 대부분 구글 TPU의 다양한 버전입니다. 하지만 구글 자체는 칩을 판매하지 않고, 자사의 클라우드 컴퓨팅 플랫폼을 통해 임대합니다.

회사의 중요한 사업인 TPU의 신세대를 발표하는 것은 Google I/O에서 하나의 전통이 된 듯합니다. 오늘 피차이는 구글의 6세대 TPU Trillium을 출시하면서, 이를 지금까지 회사가 출시한 TPU 중 가장 성능이 좋고 가장 효율적이라고 칭했습니다.이전 세대 TPU v5e와 비교했을 때 각 칩의 컴퓨팅 성능은 4.7배 향상되었습니다.또한 2024년 말까지 Trillium을 클라우드 고객에게 제공하겠다고 약속했습니다.
Tech Crunch에 따르면, 구글은 칩의 행렬 곱셈 장치(MXU)를 확대하고 전체 클럭 속도를 높이는 방식으로 성능 향상을 달성했습니다. 또한 Google은 Trillium 칩의 메모리 대역폭을 두 배로 늘렸습니다.
또한 피차이는 지난달 구글이 새로운 Axion 프로세서를 출시했다고 덧붙였습니다. 이는 업계 최고의 성능과 에너지 효율성을 갖춘 구글 최초의 맞춤형 Arm 기반 CPU입니다.

이후 피차이는 구글이 엔비디아와 협력할 것이며, 2025년에 엔비디아와 협력해 블랙웰 칩을 출시할 것이라고도 발표했습니다.
과학을 위한 AI: AlphaFold 3는 오픈 소스일 수 있습니다
딥마인드 창립자 데미스 하사비스는 "우리는 컴퓨터가 인간처럼 생각하고 일반적인 인공지능을 구축할 수 있는지 알아보기 위해 딥마인드를 창립했습니다."라고 말했습니다.

시각과 언어를 로봇의 동작으로 변환하는 RT-2부터, 자연어 명령에 따라 다양한 비디오 게임 환경에서 작업을 수행할 수 있는 게임 AI 에이전트인 SIMA, 올림피아드 수준의 수학 문제를 풀 수 있는 AIphaGeometry, 심지어 새로운 소재를 발견하는 GNoME까지, 이전의 업적을 되돌아보면, 데미스 하사비스는 "저는 우리가 책임감 있게 AGI를 구축한다면 인류에게 놀라운 방식으로 도움이 될 것이라고 늘 믿어왔습니다."라고 말했습니다.

또한, 이 회의에서 데미스 하사비스는 최근 출시된 AlphaFold 3를 강조했습니다. 이 시스템은 모든 생명 분자(단백질, DNA, RNA, 리간드 등)의 구조와 상호작용을 전례 없는 정확도로 성공적으로 예측하고, 다양한 유형의 분자 상호작용을 시뮬레이션하는 데 있어 큰 진전을 이루었습니다. 이는 약물 표적을 정확하게 결정하는 것과 같은 연구 개발 프로젝트에 필수적입니다.
사실, AlphaFold 3가 처음 출시되었을 때, 구글은 전체 코드를 오픈 소스로 공개할 계획이 전혀 없었습니다. AlphaFold Server에서는 비상업적 모델 연구를 지원하기 위한 공개 인터페이스만 출시하여 전 세계 연구자들에게 문을 열었습니다.

하지만 출시 일주일도 채 남지 않아 Google DeepMind의 연구 부사장이 갑자기 이렇게 발표했습니다. "학술적 목적으로 6개월 내에 AF3 모델(가중치 포함)을 출시할 예정입니다!" 구글은 I/O 컨퍼런스 전날 갑자기 이 오픈소스 계획을 발표했습니다. OpenAI의 압력 때문이든, 컨퍼런스에 대한 기대감을 높이기 위한 것이든, AlphaFold 3의 오픈 소스는 생명과 건강 분야의 발전에 지대한 의미를 갖습니다.
가까운 미래에 HyperAI는 Google AI for Science의 최신 레이아웃도 추적할 예정입니다. 관심 있는 분들은 공식 계정을 팔로우하고 심층적인 리포트를 기다려 보세요!
마지막 말
이로써 이틀간의 AI 카니발은 마무리되었습니다. 하지만 OpenAI와 Google 간의 싸움은 끝나지 않을 것입니다. GPT-5의 성능 한계는 어디에 있을까요? 제미니의 초장문맥 한계가 다시 깨질 수 있을까? OpenAI의 검색 엔진이 Google의 지위에 도전할까요?
엔비디아 과학자 짐 팬은 "구글은 한 가지 일을 제대로 하고 있습니다. 바로 인공지능을 검색창에 통합하기 위해 열심히 노력하고 있다는 것입니다. 에이전트: 계획, 실시간 탐색, 그리고 다중 모드 입력을 랜딩 페이지에서 모두 처리할 수 있다고 생각합니다. 구글의 가장 강력한 강점은 바로 배포입니다. 제미니는 최고의 모델일 필요는 없으며, 세계에서 가장 널리 사용되는 모델이 될 수도 있습니다."라고 말했습니다.
사실, 기자회견 전체를 돌이켜보면, 제가 가장 크게 느낀 건 "빅모델 시대에 검색은 여전히 구글의 가장 큰 자신감일 수도 있다"는 겁니다.