50億再生、1,700万人が参加した「変身コミック」DouyinチームがCSDNのインタビューを受けました

近年では、さまざまなPピクチャーや美容・特殊効果アプリがユーザーに根強い人気を誇っています。最近、Douyin の最新の「変身コミック」特殊効果が再び話題になっています。爆発の背後にある主要なテクノロジーは何ですか?
編集者:緊張しています
コンテンツは CSDN と Byte Faner から編集されたものです (リンクは記事の最後に添付されています)
最近では、Douyin の特殊効果「変身コミック」が人気を博しており、通行人から有名人まで、誰もがこれで遊ばずにはいられません。
たった 1 秒で、二次元の世界で、大きな涙目と色白の肌で、元気いっぱいの自分が現れます。


これまでに 1,770 万人以上のユーザーが「変身コミック」特殊効果を使用して Douyin でビデオを作成しており、このシリーズのビデオは累計 56 億 7,000 万回視聴されています。
1 年前のインスピレーション、GAN を使用して破壊する
この特殊効果は簡単にプレイでき、変換にかかる時間はわずか 1 秒ですが、実際、ヒットの陰には、Douyin イメージング チームの長期にわたる研究開発と磨きがかかっています。
2018 年、ByteDance は専用のイメージング チームを設立しました。Douyin、Huoshan、Qingyan などのすべてのシリーズの製品の磨きをサポートし、現実の様式化されたゲームプレイの長期的な探求を含め、ユーザーの心を打つ特殊効果を作成し続けるよう努めています。

テクノロジー メディアの CSDN は、初めて関連チームにインタビューを実施し、いくつかの引用を行いました。
今回立ち上げた「変身コミック」プロジェクトのきっかけは、約1年前のブレインストーミングセッションでした。
研究開発の学生がブレインストーミングセッション中であることを知りました。「現実の人物を数秒で漫画の顔に変える」というアイデアについて言及します。このアイデアはチームを興奮させました。
やるだけ。 2019 年 9 月、Douyin イメージング チームは、研究開発、設計、その他の同僚を協力して参加させるよう迅速に手配しました。
今回Douyinが立ち上げた漫画変身特殊効果の主力技術はやはりGANだが、過去と比べて異なる点もある。チームは GAN に基づいた新しい試みを追加しました。
実際、Douyin のリアルタイム コミック特殊効果の最終技術選択の前に、ugatit などのコミック生成方法や MUNIT などの他のタスクの方法を含む、多数の現世代のテクノロジー方法が比較されました。
しかし、調べてみると判明したのは、コミック生成やスタイル転送などのタスクに使用される現在の GAN にはいくつかの問題があります。
1 つ目は、トレーニングが不安定であること、2 つ目は、ハイパーパラメータのわずかな調整が結果に大きな影響を与える可能性があることです。さらに、勾配消失の問題も発生しやすいです。
この点について、Douyin の改善計画は、WGAN、LSGAN などを含むさまざまな損失を試すことです。しかし、今のところ特効薬はない(つまり、万能薬はないという意味。ソフトウェア工学において、特効薬とは一般に、複雑な問題を解決できるシンプルで素晴らしい解決策を指す)ため、実験中に勾配の変化を監視する必要がある。

Douyin の技術チームは、漫画ビデオ技術の探求中、初期の事前調査では何度も障害に遭遇し、出力バージョンの効果は画像バージョンとは大きく異なり、パフォーマンスも異なっていたと述べました。基準を満たしていない。
いくつかの試みで満足のいく結果が得られなかった後、チームはリアルタイム コミックの実現可能性についても疑問を抱きました。
しかし幸いなことに、何度かの試みが失敗した後、誰かが経験を要約する際の重要なポイントを指摘してくれました。従来モデルは単一構造であり、各モデルの長所と短所が完全に一致していませんでした。
それから、技術チームは、さまざまなモジュールを使用して新しいモデルを接合するモデル移植の方法を試しました。これにより、コミック生成の品質が大幅に向上しました。

品質が基準に達した後、各層の重要度を計算してモデルをトリミングし、最終的にリアルタイムバージョンのモデルの構造を決定しました。
エフェクト製品チームはモデルのエフェクトチューニングにも参加し、パラメータとエフェクトの定量的な関係を要約し、パラメータを微調整することでモデルを最適化します。ついにこの注目モデルが誕生した。
リアルタイムで漫画化するのは難しいことがたくさんありますが、それをどうやって乗り越えるのでしょうか?
「変身漫画」の最大の魅力は、リアルタイムでの変身です。
では、特に携帯電話でリアルタイムの漫画処理を実現する場合、静止画像処理と比べて何が難しいのでしょうか?
Douyin 技術チームは、次のようなリアルタイムのビデオ漫画を処理するのは非常に難しいと述べました。
- まず、モデル自体の計算量を非常に少なくする必要があり、限られた計算量でより良いコミカルな効果を実現するには、一つ一つの演算を大切にする必要があります。
- 第二に、Douyin には多くのユーザーがおり、ユーザーが使用するモデル間のパフォーマンスの差も非常に大きく、複雑でカスタマイズされたモデル配信戦略の特別な開発が必要です。
さまざまなレベルのユーザーのニーズを満たすために、Douyin は、モデルのカスタマイズされた配信を実現するための複雑なモデル配信戦略を開発しました。これにより、最終的にはリアルタイム コミックの立ち上げが成功し、次の点でリアルタイム コミックの要件が満たされます。効果も性能も。
また、Douyin コミックの特殊効果は、ByteDance が開発した推論エンジン ByteNN によって実現されています。クライアント側アルゴリズムを迅速に実装するためのこの推論エンジンは、CPU と GPU の一般的なコンピューティング機能をサポートするだけでなく、メーカーの NPU/DSP ハードウェアの高速化機能も最大限に活用し、リアルタイム コミックが Douyin の膨大なデータを安定してサポートできるようにします。ユーザーベース。
もちろん、このリアルタイムのコミック効果については、現在のアルゴリズムには、いくつかの特殊なシナリオに合わせて最適化する余地がまだあります。後続の反復では、モデル自体と推論エンジンの両方にも焦点を当て、モデルの効果を最適化しながら改善します。推論パフォーマンス。
ByteDance イメージング チーム: コミック フィルターは似ているだけでなく、美しくなければなりません
近年、画像を漫画風や手描き風に変化させる特殊効果が次々と登場しています。いかに目立ってヒット選手になるかがチームの課題だ。
ByteDance イメージング チームの Da Peng 氏によると、最も重要なことは次のとおりです。ユーザーに驚きと共鳴をもたらすこと。
一方、「変身コミックス」の特撮チームは、「らしさ」と「美しさ」を両立し、一方で、技術を磨き続けることで、何千もの人々や顔のリアルタイムの変換効果が実現されます。
プロジェクトチームのユー・チェン氏は「『絶妙な美しさ』と『究極のらしさ』の2つの特徴を定義しました。ユーザーの特徴を完全に保持し、その人らしく見えるだけでなく、漫画独特の芸術的な美しさを生み出す必要もあります」と述べました。 。」
さらに、チームは日本、中国、韓国の漫画の画像に関する専門知識を組み合わせて漫画の最終版をデザインし、その美学は広く認められました。

ゲームプレイに関しては、チームは最終的に、インタラクティブなエクスペリエンスを向上させ、さまざまな年齢、レベル、好みのユーザーのニーズを考慮するために、手でスライドする、うなずく、その他の変換方法など、6 つの創造的な小道具を選択しました。
GAN: 画像生成分野における重要な魔法の武器
この人気製品である GAN (Generative Adversarial Networks) 敵対的生成ネットワークの基本テクノロジーについて話しましょう。
近年、GANをベースとした研究が本格化している。画面が更新されるたびに画像の生成と変換を行う研究結果の背後には、GAN テクノロジーがほぼ切り離せないものとなっています。
2014 年に、イアン グッドフェローと彼のチームは、2014 年に出版された論文「Generative Adversarial Networks」で深層学習モデル GAN を開発しました。

GAN モデルの主な構造は、ジェネレーター G (Generator) とディスクリミネーター D (Discriminator) で構成されます。このモデルのトレーニングは対決ゲームの状態にあります。
敵対的ゲームのアイデアを使用して、トレーニング プロセス中にジェネレーター G の目標は、ディスクリミネーター D を欺くために実際の画像を生成しようとすることです。 D の目標は、G によって生成された画像を実際の画像から区別しようとすることです。このように、GとDは動的な「ゲームプロセス」を構成します。
試合の最終結果は?つまり、理想的な条件下では、G は「本物と偽物」の写真を生成できます。
平たく言えば、G は、あらゆる手段を使って識別者 D をだまして、最終的に本物の贋作と区別が難しい作品を手に入れる美術贋作師のようなものです。
近年、GANの応用分野は非常に豊富であると言えます。たとえば、アニメ キャラクターの生成に使用されます。

画像変換には CycleGAN を使用します。

2018 年に NVIDIA によって提案された StyleGAN は、偽のポートレートを生成しました。

ソース:
https://mp.weixin.qq.com/s/lLfp8F6G2uHxYpCMCF1Tmw
https://mp.weixin.qq.com/s/WeZD__I7Y98Fg18pEZ9L9g
- 以上 -