Back to Headlines

Googleが新AI画像モデル「Gemini 2.5 Flash Image」を発表、ナノバナナプロジェクトの謎解きと画像生成技術の進化を実現

15時間前

Googleは、AI画像生成と編集の能力を大幅に強化した「Gemini 2.5 Flash Image」を本日リリースしました。この新モデルは、Geminiアプリ、Google AI Studio、Vertex AIを通じて利用可能になり、自然言語によるプロンプトで高精度な画像生成・編集が可能に。特に注目すべきは、キャラクターの外見を複数のシーンや角度で一貫して保持できる点。たとえば、ロボットバーテンダーを異なる環境(火星のカフェや幻想的な庭園)に登場させても、顔の特徴や服のデザインが崩れず、一貫性を保つことができます。また、複数の画像を融合してまったく新しい作品を生成する機能も搭載。たとえば、犬と人の写真を組み合わせて、犬が人間の服を着たようなユニークな画像を作成可能です。 この進化の背景には、OpenAIのGPT-4o画像生成機能がもたらした市場の変化があります。2024年3月に発表されたGPT-4oは、スタジオジブリ風のAI生成画像がSNSで爆発的に拡散し、ChatGPTのユーザー数は7億人を突破。一方、GoogleのGeminiは7月の決算発表で4億5000万人の月間ユーザーと発表され、ユーザー数で後れを取っている状況。この差を埋めるため、Gemini 2.5 Flash Imageは「世界知識」を活用し、現実の物理法則や文脈を理解した複雑なシーンの生成を可能に。たとえば、「夕焼けの草原で走る猫が魔法の杖を振り、背景に古びた城が見える」など、一連の状況を論理的に組み立てた画像を生成できます。 プロンプトの効果を最大化するには、以下の6要素を含めることが推奨されます:対象(誰か、何か)、構図(ショットの種類)、動作、場所、スタイル、編集指示。たとえば「1990年代のプロダクト写真風、白いTシャツに青いタイを着た男性が、日差しの差す庭で笑っている」など、具体的な描写が結果を左右します。 このモデルは、LMArenaという評価プラットフォームで「nano-banana」として匿名で話題となり、Altmanの写真でシャツの色を変えるなど、驚異的な編集精度を示していました。Googleはこれを自社開発のGemini 2.5 Flash Imageと公表。開発責任者であるニコール・ブリチョバ氏は、「自然言語での指示に忠実に応じ、実用的な画像を生成できる」と強調。また、AI生成画像には視覚的ウォーターマークとメタデータ識別子を付与し、深層偽造の拡散を防ぐ対策も実施しています。 Googleは、住宅のインテリア提案や商品マーケティング用のカタログ作成など、実用的な活用例も提示。ユーザーの創造性を尊重しつつ、非合意的画像生成を禁止する安全対策も維持。AI画像戦争の激化する中、Geminiがユーザーの信頼と実用性の両面で競争力を高めるか、注目されます。

Related Links