8ヶ月前

概要

本報告では、ジェミナイ 1.5 モデル群を紹介します。これは、数百万のトークンにわたる微細な情報（複数の長文書や数時間のビデオ・オーディオを含む）を想起し、推論する能力を持つ次世代の高計算効率マルチモーダルモデルです。このモデル群には2つの新モデルが含まれています。(1) 多くの機能とベンチマークで2月版を超える更新版のジェミナイ 1.5 プロ；(2) 軽量設計で品質低下を最小限に抑えつつ効率性を追求したジェミナイ 1.5 フラッシュ。ジェミナイ 1.5 モデルは、モダリティ間での長文脈検索タスクにおいてほぼ完璧な想起精度を達成し、長文書QA、長ビデオQA、長文脈ASR（自動音声認識）における最先端技術を改善または超越しています。また、広範なベンチマークにおいてジェミナイ 1.0 ウルトラの最先端性能と同等かそれ以上となっています。ジェミナイ 1.5 の長文脈処理能力の限界について研究した結果、最大1000万トークンまで次のトークン予測が継続的に改善され、ほぼ完璧な検索精度（99%以上）が維持されることが確認されました。これは既存のモデルであるクロード 3.0（20万トークン）やGPT-4 ターボ（12万8千トークン）に対する世代的な飛躍です。最後に、実世界での使用例を強調します。例えば、ジェミナイ 1.5 はプロフェッショナルと協力して彼らの業務を完了させることで、10種類以上の職種において26%から75%もの時間短縮を達成しました。さらに、大規模言語モデルが新たな領域で驚くべき能力を持っていることも示されています。カラマングという世界中で話者が200人未満しかいない言語の文法マニュアルを与えた場合、モデルは同じ内容から学習した人間と同程度のレベルで英語からカラマングへの翻訳を行うことができます。

ソースPDF