HyperAI超神経
Back to Headlines

AIが生成・編集する新イメージテクノロジー:ジェネレータなしで画像生成とインペイントを実現

7日前

AIを使った新しい画像生成・編集手法 今年夏にカナダ・バンクーバーで開催された国際機械学習カンファレンス(ICML 2025)で、MITの研究者が新たな画像生成・編集手法について発表しました。この技術はAIの進歩を推し進め、計算資源の大幅な節約につながる可能性があります。 研究の経緯 研究はMITの卒業学生リュカス・ラオ・ベイヤーが深層生成モデルの授業で取り組んだクラスプロジェクトから始まりました。授業の指導教官であるケーミング・ヘ教授は、この研究が通常の課題の枠を超える Potential を持っていることに気づき、他の協力者を加えて進めました。 ラオ・ベイヤーは2024年6月にテクニカル大学ミュンヘンと中国のByteDanceから発表された「1次元トークナイザー」に着目しました。この装置は256x256ピクセルの画像を32つの数字(トークン)に圧縮できる新方式で、各トークンは画像全体の情報を持つことが特長です。 トークンの機能解明 ラオ・ベイヤーとチームは、個々のトークンの役割を調査しました。トークンをランダムな値に置き換えることで、画像の解像度、背景のぼけ具合、明るさ、姿勢などが変化することを見出しました。これは、過去に観測されていなかった視覚的な変化であり、新しい画像編集手法の可能性を示唆しました。 生成器なしでの画像生成 さらに大きな成果は、生成器を使用せずに画像を生成する方法を発見したことでした。通常、画像生成にはトーカナイザーによる圧縮・エンコーディングと、ジェネレーターによる結合・配置が必要ですが、MITの研究チームは1次元トーカナイザーとデトーカナイザー(ディコーダー)のみを使用して、CLIPという既存のニューラルネットワークの支援を受けて画像生成を成功させました。CLIPは自体が画像を生成できませんが、文書プロンプトと画像の整合性を測定することができます。これにより、たとえばパンダの画像をトラに変換したり、全てのトークンをランダムな値から始めて完全に新しい画像を作成したりすることが可能になりました。 欠損部分の補完 同じ手法で、「インペイント」と呼ばれる欠損部分の補完も行いました。これは、画像の一部が欠けている場合にその部分を埋める技術で、ジェネレーターを使用せずに済むため計算コストを大幅に削減できます。 業界の反応 ニューヨーク大学のサイニング・シー教授は、「この研究はトークナイザーの役割を再定義しています。画像圧縮用のツールが画像編集やインペイントにも使用可能であることは驚くべきことです」と評価しています。 プリンストン大学のズアング・リウ教授も賛同し、「この手法は今までよりもずっと簡単な方法で画像を生成・編集することが可能であることを示しており、コストが数倍安くなる可能性があります」と述べています。 応用可能性 MITのセルタック・カラマン教授は、この技術が自己走行車やロボットの行動計画など、コンピュータビジョン以外の分野でも応用される可能性があると指摘しています。ラオ・ベイヤーも同様の見方を示し、1次元トークナイザーの高い圧縮率が「驚くほど素晴らしいことに」応用されると考えています。自己走行車の場合、トークンは車両の異なるルートを代表し、効率的なパス選択が可能になります。 シー教授はまた、「これによって多くの革新的な用途が生まれるかもしれません。本当にcoolな使い道が期待されます」と述べています。 まとめ MITの研究グループは、1次元トークナイザーとCLIPを利用する新しい画像生成・編集手法を開発し、計算資源の節約と応用範囲の拡大を示しました。この成果はAI画像生成業界に大きな影響を与える可能性があり、今後の応用が期待されています。 MITのラボラトリーフォードインフォメーションアンドディシジョンシステムズ(LIDS)やコモンウェルスソート・アンド人工知能研究所(CSAIL)など、最先端の研究機関での取り組みは、さらなる技術革新を促進していくでしょう。

Related Links