HyperAI超神経

映画を観たりテレビシリーズを視聴する時間がない場合は、AI がワンクリックで映画やテレビ番組をコミックに変えることができます

4年前
見出し
本当に緊張しました
神经小兮
特色图像

映画やテレビドラマを漫画化する魔法とはどのようなものなのでしょうか?大連理工大学と香港城市大学のチームは最近、映画やテレビドラマを自動的にコミックに変換できるAIフレームワークを提案した。これからは、映画やテレビシリーズを視聴する別の方法が登場します。

今日、映画、テレビシリーズ、さまざまなビデオは私たちの生活に欠かせないものになっています。報告によると、毎日 YouTube にアップロードされるビデオの合計の長さは、人間が視聴するには 82 年以上かかるそうです。

テレビシリーズの視聴時間を節約するために、テレビシリーズの視聴では 2 倍速再生が標準になっています。倍速やスキップで視聴したり、映画評論家の解説を視聴したりするほかに、ドラマを早く追いつく方法として、映画やテレビドラマを漫画化するという方法もあります。

最近、大連理工大学と香港城市大学の研究者らは、テレビシリーズ、映画、その他のビデオのシーンをコミック形式に自動的に生成し、テキストの吹き出しを追加できる興味深い研究を発表しました。

左から右へ、「タイタニック」、「ザ・ウィンド」、「フレンズ」、「イン・ザ・クラウズ」のコミック版

研究者らは論文の中で、「最新のコミック生成システムと比較して、私たちのシステムはより表現力豊かで魅力的なコミックを合成できる。将来的には、この技術はテキスト情報を使用したコミック生成にも拡張されるだろう」と述べている。

漫画版は読んだことがありますが、「ガイ漫画」は読んだことがありますか?

これまでにも、業界では同様の研究結果がいくつかあり、ビデオをコミックに変換する自動化システムが提案されていますが、その自動化、視覚効果、読みやすさの点で改善の必要があるため、この研究の方向性は依然として課題に満ちています。

大連理工大学と香港城市大学のチームは最近、論文を発表した。「文体的な複数ページレイアウトと感情主導のテキストバルーン生成を備えた自動コミック生成」、より良い方法が提案されました。

コミック自動生成システム: 映画やテレビ番組を、感情に基づいたテキストバブルを備えた様式化された複数ページのレイアウトに生成します。
論文アドレス: https://arxiv.org/abs/2101.11111

この論文では、全自動コミック生成システムを提案しています。必要なし手動で調整すれば、ユーザーはあらゆるタイプのビデオ (TV シリーズ、映画、漫画) から高品質のコミック ページを生成し、キャラクターの会話をバブル テキストに変換できます。また、このシステムによって生成されるコミックは視覚効果が豊かで読みやすさに優れています。

3 つの主要なモジュールが映画とテレビを漫画に変換します

この論文で示されている重要なアイデアは次のとおりです。手動でパラメータや制約を指定することなく、完全に自動化された方法でシステムを設計します。同時に、チームはユーザー インタラクションを選択的に導入し、デザインをよりパーソナライズして多様性のあるものにしました。

全体として、システムには主に次の 3 つのモジュールがあります。キーフレームの選択とコミックのスタイル設定、複数ページのレイアウトの生成、テキストの吹き出しの生成と配置。

システム全体のワークフローの概略図

モジュール 1: キーフレームの抽出と様式化 

システムへの入力はビデオとその字幕であり、ダイアログと対応する開始および終了のタイムスタンプ情報が含まれます。

まず元のビデオから 0.5 秒ごとにフレームを選択し、次に字幕の時間情報と 2 つの連続するフレーム間の類似性を使用して、有益なキー フレームを選択します。最後に、キーフレームを定型化します。これは、通常の画像を漫画風の画像に変換することです。

キーフレーム抽出

キーフレームの選択は特に重要で難しい作業です。チームは主に時間情報を使用して選択を行います。

キーフレーム選択プロセス

上の図に示すように、チームはまず各字幕の開始時刻と終了時刻を使用してビデオを複数のショットに分割し、これらのショットを対話ショット (字幕のあるショット) と非対話ショット (字幕のないショット) の 2 つのタイプに分けました。字幕)。

会話ショットの場合:システムは、以前に取得した 2 つの連続したフレーム間の GIST 類似度を計算します (GIST 類似度が小さい場合、2 つのフレーム間の差は大きくなります)。

実行中に、類似度があらかじめ設定されたしきい値α 1 未満の場合、次のフレームがキー フレームとして選択されます。字幕のグループに対応するフレームがいずれも選択されていない場合は、中央のフレームをキー フレームとして選択します。

連続する会話と同じシーンが複数の字幕に対応する可能性があることを考慮して、チームは以前に取得した連続するキー フレーム間の GIST 類似性を計算します。類似度が設定された閾値α2よりも大きい場合、それらは同じシーンに属するとみなされる。次に、キーフレームの 1 つを保持し、字幕を結合します。

さらに、同じ字幕グループ内で、システムは複数のキーフレームを選択する場合があります。これは、計算後に、これらのキーフレームに意味的な関係があることが判明する可能性があり、これらのキーフレームがマルチページ レイアウトに使用されるためです。

会話以外のショットの場合:システムは、現在のショットのフレームと最も異なるフレームを最初に選択します。選択したフレームの冗長性を減らすために、システムはこのショットと以前に選択したキー フレームの間の GIST 類似性を計算し、それが以前に設定したしきい値より小さい場合にのみ、キー フレームとして選択します。

最後に、開始タイムスタンプとキーフレームのタイムスタンプを比較することによって、字幕セットがグループ化されます。キーフレームの開始タイムスタンプと終了タイムスタンプの範囲内の字幕はすべて一緒に収集されます。

画像の様式化

研究チームは、ガウス法の拡張差分法を使用して、ソース画像を白黒画像に変換しました。食事の後、128 レベルのカラー量子化を実行して量子化された画像を取得し、カラーの様式化を実現します。以上、実写映画のショット群が漫画風になりました。

モジュール 2: 複数ページのレイアウト 

チームは、より豊かな視覚効果を提示しながら、ページ レイアウトを自動的に割り当てて整理するマルチページ レイアウト フレームワークを提案しました。

このモジュールでは、まず、キー フレームの関心領域 (ROI)、キー フレームの重要度レベル、キー フレームとページ上のパネルの数。

次にチームは、ページシーケンスにキーフレームを割り当てる最適化ベースのパネル割り当て手法を提案し、データ駆動型のコミックスタイルのレイアウト合成手法を使用して各ページのレイアウトを生成しました。

漫画をよく読んでいる友人は、漫画本の各ページのセルの数が固定されていないことを知っています。読者により良い読書体験を提供するために、漫画家はプロットに従ってセルの数を配置します。

この研究では、チームはこの問題をグローバル最適化問題として扱い、コミック ページ内の各ショットの配布を完了しました。

キー フレーム間の関係の分析: 同じ色の点線のボックス内のキー フレームには意味的な関係がありますが、その逆はありません。

モジュール 3: 吹き出しの生成と配置 

吹き出しの生成

通常、漫画では、作者はさまざまな状況や感情の下で対話のためにさまざまなバブルの形を選択しますが、これは漫画の内容を表現する上で非常に重要です。既存の関連研究では、一般的に基本的な楕円形の泡の形状のみが使用されており、感情表現には十分ではありません。

この論文で提案する重要な成果は、感情知覚に基づいたバブル生成手法であり、感情を含むビデオオーディオと字幕情報を使用して、それに適したテキストバブル形状を生成することができます。

システムは、対応する音声と字幕に基づいて、入力ビデオに含まれる感情を分析します。次に、対応するバブル形状を生成します

このシステムでは、作者は楕円形バブル、思考バブル、ジグザグバブルという 3 つの一般的なバブル形状を使用します。この3つの泡に適した感情は、穏やかな感情、思い(言葉にならない)、強い感情です。

バブル分類器のトレーニングでは、チームは主にいくつかのアニメーション ビデオと対応する漫画本を使用して、音声の感情、字幕の感情、バブルの種類に関するデータを収集しました。

バブルの位置と配置

前の方法と同様に、この記事でも話者検出と唇の動きの検出を使用してフレーム内の話者の位置を取得し、バルーンをその人物の近くに配置します。

口の検出 + 唇の動きの検出により話者の位置を特定します

具体的な実行プロセスは次のとおりです。

  • まず、顔検出 Python ライブラリ「Dlib」を使用して、フレーム内の各キャラクターの口を検出します。
  • 次に、唇の動き分析を使用して、2 つの連続するフレーム間の口領域のピクセル値の平均二乗誤差を計算し、現在のフレームの口領域の周囲の検索領域で差分を計算し、唇に動きがあるかどうかを判断します。唇;
  • 最後に、キャラクターが話しているかどうかを判断するためのしきい値を設定します。

話者の位置を取得したら、その近くにテキスト吹き出しを配置し、吹き出しの尾を話者の口の方に向けます。

4 つの古典的な映画を使用してシステム効果を評価する

モデルの効果をテストするために、チームは、「タイタニック」、「風」、「フレンズ」、「雲の中で」を含む 4 つの異なる映画から合計 16 個のクリップを入力しました。

入力ビデオの長さは 2 ~ 6 分間で、各クリップにはセリフが含まれる部分が含まれていました。

各クリップについて、チームはシステムを使用してコミックブックを生成するのにかかった時間を記録し、システムのパフォーマンスを評価するために平均経過時間を計算しました。

各ビデオでコミックを生成するのにかかる時間は 10 分もかかりません。

著者らは、この研究の方法は以前の方法と比較して他の方法よりも優れていると結論付けました。主に次の 3 つの側面に反映されます。

  • まず、既存の方法では単純な楕円形の吹き出ししか使用しないのに対し、このシステムは会話用のより豊富な吹き出し形状を生成できます。
  • 次に、テキスト要約方法を使用して関連するサブタイトルを結合し、吹き出し内の文が長すぎないようにし、読みやすさを高めます。
  • 第三に、4 つの重要なパラメータを自動的に取得することにより、完全自動の複数ページ レイアウトが実現され (以前の方法はほとんどが半自動であり、手動介入が必要でした)、レイアウト結果は合理的で充実しています。
効果の表示と比較。このうち、(a) ~ (d) はこのチームのシステム生成効果、(e) ~ (h) は 2015 年に別のチームが発表した結果です。対応する映画は、「タイタニック」、「ザ・ウィンド」、「フレンズ」、「イン・ザ・クラウズ」です。

主観的要因による干渉を避けるために、チームは Amazon Mechanical Turk を通じて 40 人のボランティアを募集し、チームが生成した結果を他の同様のシステムによって生成された結果と比較しました。

ボランティアはまずオリジナルのビデオを視聴し、次にさまざまな方法で生成された漫画を読んで効果を評価します。主観的な偏見を避けるため、ビデオと対応する漫画はランダムに配置されています。

その結果、ボランティアが以前にビデオを見たかどうかに関係なく、このシステムは他の方法よりも高い評価を得ました。

ワンクリックで漫画を生成できます。他に何ができるでしょうか?

ユーザーからは好評を博していますが、システムが完璧ではないことは間違いなく、解決すべき問題もいくつかあります。

たとえば、キー フレームの選択では、類似性が高すぎる場合があり、画像に冗長性が生じます。

また、入力された映像に字幕がない場合、漫画を生成する前に音声認識によってセリフを抽出する必要がありますが、音声認識の結果には誤りが発生しやすいため、これもシステムの課題となります。しかし、チームは、音声認識技術の継続的な進歩により、この問題は将来解決されるだろうとの信念を表明しました。

将来、このテクノロジーが十分に成熟すると、多くのビデオ作品には、漫画の形でビデオを「見る」という追加の方法が読者に豊かな想像力をもたらすかもしれません。

動画とは異なり、漫画には静止画像が含まれており、テキストは少ないです。しかし、このおかげで、読者はより個人的な感情や想像力を加えることができます

また、絵のスキルがなくても一般の人でも簡単に動画を漫画化することができ、写真を絵画風に変換できるアプリ「Prisma」のような新たなマスエンターテインメントツールとなる可能性もあります。

チームは次のステップでこの方法を拡張し、テキスト情報を使用して漫画を生成することも計画しています。つまり、漫画の台本さえ与えられれば、システムが自動的に漫画を生成してくれるので、漫画家の時間を大幅に節約できます。

漫画やドラマを2倍速以上で見る