6ヶ月前

概要

最新の生成対抗ネットワーク（GAN）は、大規模な学習を通じて優れた成果を上げており、数百万ものパラメータを有するモデルを用いることで、膨大な計算能力を必要としている。このような巨大なモデルの構築は、再現性を損ない、学習の不安定性を高める要因となる。さらに、画像や音声などのマルチチャネルデータは、通常、実数値の畳み込みネットワークによって処理され、入力を平坦化・連結するため、チャネル内での空間的関係が損なわれる傾向がある。こうした複雑さと情報損失の問題に対処するため、本研究では四元数値生成対抗ネットワーク（QGAN）のファミリーを提案する。QGANは四元数代数の特性、特にハミルトン積（Hamilton product）を活用し、チャネルを一つの単位として統合的に処理することで、内部の潜在的関係を捉えつつ、全体のパラメータ数を最大4分の1まで削減することが可能となる。本研究では、QGANの設計手法を示し、さらに高度なモデルへの拡張方法も提案する。複数の画像生成ベンチマークにおいて、提案手法のQGANと実数値GANを比較した結果、QGANは実数値GANよりも優れたFIDスコアを達成し、視覚的に魅力的な画像を生成できることを示した。さらに、QGANは学習に必要なパラメータを最大75％削減する効果を発揮した。これらの成果により、性能の向上と計算リソースの節約を両立できる、より新しいかつアクセスしやすいGANの実現が期待される。

ソースPDF