デューク大学が低品質の画像を保存し、数秒で高解像度に変える AI アルゴリズムを提案

5 年前

本当に緊張しました

神经小兮

特色图像

「モザイク」ピクセルレベルの顔写真を高解像度の写真に変換するのはどのような感じですか?デューク大学が提案したAIアルゴリズムは「モザイクを除去する」だけでなく、あらゆるシワやあらゆる毛を除去することも可能です。試してみますか?

ハイビジョン画質を追求する時代において、画質の悪さへの許容度はますます低くなってきています。

Zhihu で「低解像度」「低画質」を検索すると、「低解像度の写真を高解像度の写真に変換する方法」「低解像度の写真を修復する方法」などのトピックのリストが大量に表示されます。 「画質の低下を解決する」などのハウツー問題。

では、モザイク レベルの画像を数秒で高解像度に変えるとはどのようなものでしょうか?デューク大学の研究者は AI アルゴリズムを使用して教えてくれます。

プロジェクトは GitHub 上にオンラインで公開されています。https://github.com/adamian98/pulse

前代未聞の「モザイク」が瞬時に高精細化

デューク大学の研究者は、彼らが呼ぶ AI アルゴリズムを考案しました PULSE (潜在宇宙探査による写真アップサンプリング、潜在宇宙探査による写真アップサンプリング)。

このアルゴリズムにより、ぼやけて認識できない顔の画像を、これまでよりも精細でリアルなディテールを備えたコンピューター生成画像に変換できます。

入力された低解像度画像に基づいて、システムは一連の高解像度画像を生成します。

前の方法を使用して、ぼやけた「マグカップの写真」を鮮明にしたい場合は、写真を元の解像度の最大 8 倍までしか拡大縮小できません。

しかし、デューク大学のチームは新しいアプローチを考え出しました。ほんの数秒で、16 × 16 ピクセルの低解像度 (LR) 画像を 64 倍に拡大して、1024 × 1024 ピクセルの高解像度 (HR) 画像にできます。

彼らの AI ツールは、もともと存在しないいくつかの機能を「想像」します。毛穴、小じわ、まつげ、髪の毛、無精ひげなど、元の LR 写真では見えなかった細部も、アルゴリズムによって処理されると鮮明に見ることができます。

具体的な例を見てみましょう。

左の画像は元の低解像度画像、右の画像はシステムによって作成された高解像度画像です

チームを率いたデューク大学のコンピューター科学者シンシア・ルーディン氏は、「これほど少ないピクセルを使用して、これほど詳細な超解像度画像を作成することはこれまで不可能だった」と語った。

実際の応用に関して、論文の共著者であるサチット・メノン氏は次のように述べています。「これらの研究では、概念の実証として顔を使用しただけです。

しかし理論的には、この技術は普遍的であり、医学や顕微鏡から天文学や衛星画像に至るまで、あらゆる分野の画質を向上させるために使用できます。 」

従来のオペレーションを打ち破って最高の結果を達成する

これまで同様の低解像度方式と高解像度方式は数多くありましたが、64 倍の画素増幅レベルを達成できるのは業界初です。

  従来の方法: ピクセル マッチング、バグが発生しやすい

このような問題に対処するために従来の方法が使用される場合、通常は LR 画像を取得した後、追加のピクセルが何個必要であるかを「推測」し、前に処理された HR 画像内の対応するピクセルを LR 画像と照合しようとします。

このように単純に画素を合わせた結果、髪や肌の質感などの部分で画素の合わせずれが発生してしまいます。

さらに、この方法では、HR 画像の光感度などの知覚の詳細も無視されます。そのため、最終的には滑らかさと感度に問題が発生し、結果は依然としてぼやけていたり、非現実的に見えたりすることになります。

以前のメソッドの一部では、奇妙な結果が生成されました。

新方式:低精細画像「連聯観」 

デューク大学チームが提案した新しい手法は、新たな発想を切り開いたものと言える。

LR 画像を取得した後、PULSE システムは新しい詳細を徐々に追加しません。代わりに、AI によって生成された HR 画像をスキャンし、これらの HR 画像に対応する LR 画像を元の画像と比較し、最も近い画像を見つけます。

たとえば、LR 画像を取得し、最も類似した LR バージョンを見つけるために「Lianliankan」を実行し、この LR 画像に対応する HR 画像が最終的な出力結果となります。

元の LR 画像(上)、PULSE によって出力された HR 画像(中)HRピクチャに対応するLRピクチャ(下)

チームは敵対的生成ネットワーク (略して GAN) を使用しました。これは、同じ写真データセットでトレーニングされた、ジェネレーターとディスクリミネーターの 2 つのニューラル ネットワークで構成されています。

その中で、ジェネレーターはトレーニングされた顔をシミュレートし、AI によって作成された顔を提供します。一方、ディスクリミネーターはその出力を受け取り、それが実際に合格するのに十分であるかどうかを判断します。

経験が蓄積するにつれて、ジェネレータはますます良くなり、ついにはディスクリミネータが違いを見分けられなくなります。

実際の画像を使用して実験を行ったところ、その効果の比較が次の図に示されています。

上段が実際の画像、中段が実際の画像をダウンサンプリングしたLR画像です。下段はLR画像を元にPULSEで生成したHR画像です。

生成された高解像度画像と元の画像の間にはまだ多少のギャップがありますが、以前の方法よりもはるかに鮮明になっています。

評価: 他の方法よりも優れており、実際の写真に近いスコア

チームは、有名な高解像度の顔データセット CelebA HQ でアルゴリズムを評価し、64 倍、32 倍、8 倍の倍率で実験を実施しました。

研究者らは40人に、PULSEと他の5つのスケーリング手法によって生成された1,440枚の画像を1から5のスケールで評価するよう依頼した。そして、PULSE は最高の結果をもたらし、実際の高品質写真とほぼ同じスコアを獲得しました。

HR は実際の高解像度ポートレート データ セットであり、そのスコアは PULSE よりわずか 0.14 高いだけです。

チームメンバーによると、元の画像では目や口さえ認識できない場合でも、PULSE はノイズの多い低品質の入力からリアルな画像を作成できるという。これは他の方法では実行できません。

他の方法と比較して、PULSE は細部をより現実的に処理します。

しかし、このシステムはまだ本人確認には使用できない、と研究者らは述べ、「監視カメラで撮影した焦点が合っていない認識できない写真を、実際の人物の鮮明な画像に変換することはできない」としている。存在しないが本物に見える新しい顔を生成するだけです。 」

具体的な応用シナリオとしては、上記に加えて、将来的には医療や天文学にも応用される可能性があり、一般向けには、このブラックテクノロジーを利用して、N年前に撮影された古い写真を高解像度に変換することができます。編集者にとって、これはさらに良いニュースです。高解像度の写真を探す必要がなくなりました。

「感動的な画質」に別れを告げる

暖かいリマインダー: 研究者らは、開催中の CVPR 2020 (コンピューター ビジョンおよびパターン認識カンファレンス) でもその手法を紹介します。以下の点に注目してください。

http://cvpr2020.thecvf.com/program/tutorials

用紙のアドレス:

https://arxiv.org/pdf/2003.03808.pdf

参考文献:

https://www.sciencedaily.com/releases/2020/06/200612111409.htm

- 以上 -