HyperAI초신경

영화나 드라마 볼 시간 없어도 AI가 클릭 한 번으로 영화와 드라마를 만화로 만들어준다

4년 전
헤드라인
트루 너브
神经小兮
特色图像

영화나 TV 시리즈를 만화로 만든다는 건 어떤 마법 같은 작업일까? 최근 대련 이공대학과 홍콩 시립대학의 연구팀은 영화와 TV 시리즈를 자동으로 만화로 변환할 수 있는 AI 프레임워크를 제안했습니다. 이제 영화와 TV 시리즈를 시청하는 방법이 하나 더 생겼습니다.

요즘에는 영화, TV 드라마, 다양한 영상이 우리 삶에 없어서는 안 될 부분이 되었습니다. 유튜브에 매일 업로드되는 영상의 총 길이는 사람이 시청하는 데 82년 이상이 걸린다고 합니다.

TV 시리즈 시청 시간을 절약하기 위해, 2배속 재생이 TV 시리즈를 연속 시청하는 표준이 되었습니다.2배속으로 빠르게 시청하고, 점프해서 보는 방법, 영화 평론가의 평론을 듣는 방법 외에도, TV 시리즈를 빨리 따라잡을 수 있는 또 다른 방법이 있는데, 바로 TV 시리즈를 만화로 만드는 것입니다.

최근, 대련 이공대학과 홍콩 시립대학의 연구진은 TV 시리즈, 영화 또는 기타 비디오에서 사진을 자동으로 만화 형태로 생성하고 텍스트 풍선을 추가할 수 있는 흥미로운 연구 결과를 발표했습니다.

왼쪽부터 오른쪽으로: 타이타닉, 바람의 소리, 프렌즈, 업 인 디 에어의 만화 버전

연구진은 논문에서 "최첨단 만화 생성 시스템과 비교해 볼 때, 우리 시스템은 더욱 표현력이 풍부하고 매력적인 만화를 합성할 수 있다"고 밝혔다. "미래에는 이 기술이 텍스트 정보를 활용해 만화를 생성하는 데까지 확장될 것입니다."

만화 원작은 본 적이 있지만, "각색 만화"는 본 적 있나요?

이전에도 업계에서는 영상을 만화로 변환하는 자동화 시스템을 제안하는 유사한 연구 결과가 있었지만, 자동화, 시각 효과, 가독성 등 측면에서 여전히 개선의 여지가 있습니다. 따라서 이 연구 방향은 여전히 많은 과제에 직면해 있습니다.

대련기술대학과 홍콩시립대학의 팀은 최근 논문을 발표했습니다."스타일리시한 다중 페이지 레이아웃과 감정 기반 텍스트 풍선 생성을 통한 자동 만화 생성"더 나은 방법이 제안되었습니다.

자동 만화 생성 시스템: 감정 중심 텍스트 버블을 사용하여 영화 및 TV 프로그램을 양식화된 다중 페이지 레이아웃으로 생성합니다.
논문 주소: https://arxiv.org/abs/2101.11111

본 논문에서는 전자동 만화 생성 시스템을 제안한다.필요 없음사용자가 수동으로 조정하기만 하면 모든 유형의 비디오(TV 시리즈, 영화, 만화)를 고품질 만화 페이지로 생성할 수 있으며 캐릭터 대화를 말풍선 텍스트로 변환할 수 있습니다.게다가 이 시스템을 통해 생성된 만화는 시각적 효과가 풍부하고 가독성이 매우 뛰어납니다.

영화와 TV 드라마를 만화로 만드는 3가지 모듈

이 논문에서 제안하는 핵심 아이디어는 다음과 같습니다.수동으로 지정한 매개변수나 제약 없이 완전 자동화된 방식으로 시스템을 설계합니다.동시에 팀은 사용자 상호작용을 선택적으로 도입하여 디자인을 보다 개인화하고 다양하게 만들었습니다.

일반적으로 이 시스템은 세 가지 주요 모듈로 구성됩니다.키프레임 선택 및 만화 스타일 지정, 다중 페이지 레이아웃 생성, 텍스트 버블 생성 및 배치.

전체 시스템 워크플로우의 개략도

모듈 1: 키프레임 추출 및 스타일화 

이 시스템의 입력은 비디오와 자막이며, 자막에는 대화와 해당 시작 및 종료 타임스탬프 정보가 포함되어 있습니다.

그들은 먼저 0.5초마다 원본 영상에서 프레임을 하나씩 선택한 다음 자막의 시간 정보와 두 개의 연속된 프레임 간의 유사성을 사용하여 정보가 풍부한 주요 프레임을 선택했습니다. 마지막으로 키 프레임을 스타일화합니다. 즉, 일반적인 이미지를 만화 스타일의 이미지로 변환합니다.

키프레임 추출

키 프레임을 선택하는 것은 특히 중요하고 어려운 작업입니다. 팀은 주로 시간 정보를 사용하여 선택을 합니다.

키프레임 선택 프로세스

위 그림에서 볼 수 있듯이, 팀은 먼저 각 자막의 시작 시간과 종료 시간을 이용해 영상을 여러 샷으로 나누었습니다. 이러한 샷은 대화 샷(자막이 있는 샷)과 비대화 샷(자막이 없는 샷)의 두 가지 유형으로 나뉩니다.

대화 장면의 경우:시스템은 이전에 얻은 두 개의 연속된 프레임 사이의 GIST 유사도를 계산합니다(GIST 유사도가 작으면 두 프레임 사이의 차이가 큽니다).

실행 중에 유사도가 사전 설정된 임계값 ?1보다 작으면 다음 프레임이 키 프레임으로 선택됩니다.자막 그룹에 해당하는 프레임이 선택되지 않은 경우, 가운데 프레임이 키 프레임으로 선택됩니다.

연속된 대화와 동일한 장면에는 여러 개의 자막이 대응할 수 있다는 점을 고려하여 연구팀은 이전에 얻은 연속된 키 프레임 간의 GIST 유사성을 계산했습니다. 유사도가 설정된 임계값 ?2보다 크면 동일한 장면에 속하는 것으로 간주됩니다. 그런 다음 키프레임 중 하나만 유지하고 자막을 병합합니다.

또한, 동일한 자막 세트에서 시스템은 여러 개의 키 프레임을 선택할 수 있습니다. 계산 후 이러한 키 프레임이 의미적 관계를 가지고 있고 이러한 키 프레임이 다중 페이지 레이아웃에 사용될 가능성이 있기 때문입니다.

대화가 없는 샷의 경우:현재 샷의 프레임과 가장 동일하지 않은 프레임이 먼저 선택됩니다. 선택된 프레임의 중복을 줄이기 위해 시스템은 이 샷과 이전에 선택된 키 프레임 간의 GIST 유사성을 계산합니다. 이전에 설정한 임계값보다 작은 경우에만 키 프레임으로 선택됩니다.

마지막으로, 시작 타임스탬프와 키프레임의 타임스탬프를 비교하여 자막 세트를 그룹화합니다. 키프레임의 시작 및 종료 타임스탬프 범위 내에 있는 모든 자막은 함께 수집됩니다.

양식화된 그림

연구팀은 확장된 가우시안 차분법을 사용하여 원본 이미지를 흑백으로 변환했습니다. 식사 후 128레벨 색상 양자화를 수행하여 양자화된 이미지를 얻고 색상 스타일화를 구현합니다. 즉, 실제 영화 장면을 만화 스타일로 바꾼 것입니다.

모듈 2: 다중 페이지 레이아웃 

이 팀은 더욱 풍부한 시각적 효과를 제공하는 동시에 페이지 레이아웃을 자동으로 할당하고 구성하는 다중 페이지 레이아웃 프레임워크를 제안했습니다.

이 모듈에서는 먼저 다중 페이지 레이아웃을 생성하는 데 필요한 4가지 핵심 요소를 계산해야 합니다. 여기에는 키프레임의 관심 영역(ROI), 키프레임의 중요도, 키프레임 간의 의미적 관계, 페이지의 패널 수가 포함됩니다.

그런 다음 팀은 키 프레임을 페이지 시퀀스에 할당하기 위해 최적화 기반 패널 할당 방법을 제안하고 데이터 기반의 만화 레이아웃 합성 방법을 사용하여 각 페이지의 레이아웃을 생성했습니다.

만화를 좋아하는 친구들은 만화책의 각 페이지에 있는 프레임 수가 고정되어 있지 않다는 것을 알고 있습니다. 독자들에게 더 나은 독서 경험을 제공하기 위해 만화가들은 줄거리에 따라 프레임 수를 배열합니다.

이 연구에서 연구팀은 이 문제를 전역 최적화 문제로 처리하여 만화 페이지에서 각 샷의 할당을 완료했습니다.

주요 프레임 간의 관계 분석: 같은 색 점선 상자의 주요 프레임은 의미적 관계가 있고, 그렇지 않은 경우 관계가 없습니다.

모듈 3: 텍스트 버블 생성 및 배치 

텍스트 풍선 생성

일반적으로 만화에서 작가는 다양한 상황과 감정의 대화에 대해 서로 다른 거품 모양을 선택하는데, 이는 만화의 내용을 표현하는 데 매우 중요합니다. 하지만 기존의 관련 연구들은 주로 기본적인 타원형 거품 모양만을 사용했으며, 이는 감정 표현에 충분히 풍부하지 않았습니다.

본 논문에서 제안하는 중요한 결과는 감정 인식을 기반으로 한 거품 생성 방법으로, 감정이 포함된 비디오 오디오 및 자막 정보를 사용하여 감정에 적합한 텍스트 거품 모양을 생성할 수 있다는 것이다.

시스템은 해당 오디오 및 자막을 기반으로 입력 비디오에 포함된 감정을 분석합니다.,그런 다음 해당 거품 모양을 생성합니다.

이 시스템에서 저자는 타원형 거품, 생각 거품, 톱니 모양의 거품이라는 세 가지 일반적인 거품 모양을 채택했습니다. 세 가지 유형의 거품은 차분한 감정, 생각(말로 표현되지 않음), 강렬한 감정에 적합합니다.

거품 분류기를 훈련하기 위해 연구팀은 주로 애니메이션 영상과 해당 만화책을 사용하여 오디오 감정, 자막 감정, 거품 유형에 대한 데이터를 수집했습니다.

버블 위치 및 배치

이전 방법과 유사하게, 이 논문에서도 화자 감지와 입술 움직임 감지를 사용하여 프레임 내에서 말하는 사람의 위치를 파악한 다음 풍선을 해당 풍선이 속한 사람 근처에 놓습니다.

말하는 사람을 찾기 위한 입 감지 + 입술 움직임 감지

구체적인 실행 과정은 다음과 같습니다.

  • 먼저, "Dlib" 얼굴 감지 Python 라이브러리를 사용하여 프레임에 있는 각 캐릭터의 입을 감지합니다.
  • 그런 다음, 입술 움직임 분석을 사용하여 두 연속된 프레임 사이의 입 영역의 픽셀 값의 평균 제곱 차이를 계산합니다. 현재 프레임에서 입 주변 영역을 중심으로 검색 영역을 비교하여 차이를 계산하여 입술이 움직이는지 여부를 판별합니다.
  • 마지막으로, 캐릭터가 말하고 있는지 판단하기 위한 임계값을 설정합니다.

말하는 사람의 위치를 파악한 후, 말풍선을 그 근처에 놓고 말풍선의 꼬리가 말하는 사람의 입을 향하게 합니다.

4편의 고전 영화를 통해 시스템 효과를 평가한다

이 모델을 테스트하기 위해 연구팀은 타이타닉, 메시지, 프렌즈, 업 인 디 에어 등 4개의 영화에서 16개의 클립을 입력했습니다.

입력 비디오의 길이는 2분에서 6분까지이고, 각 클립에는 대화가 포함된 부분이 포함되어 있습니다.

연구팀은 각 클립에 대해 시스템을 사용하여 만화책을 생성하는 데 걸리는 시간을 기록하고, 시스템 성능을 평가하는 데 걸리는 평균 시간을 계산했습니다.

각 영상에서 만화를 제작하는 데 걸리는 시간은 10분을 넘지 않습니다.

저자들은 이 연구의 방법이 이전 방법들에 비해 우수하다는 결론을 내렸습니다. 이는 주로 다음 세 가지 측면에서 반영됩니다.

  • 첫째, 이 시스템은 기존 방식에서는 단순한 타원형 단어 풍선만 사용했지만, 대화에 맞는 더욱 풍부한 풍선 모양을 생성할 수 있습니다.
  • 둘째, 텍스트 요약 방법을 사용하여 일부 관련 자막을 병합하면 텍스트 버블의 문장이 너무 길지 않고 가독성을 높일 수 있습니다.
  • 셋째, 4가지 중요 매개변수를 자동으로 획득함으로써 완전 자동 멀티 페이지 레이아웃을 구현할 수 있습니다(기존 방식은 대부분 반자동이어서 수동 개입이 필요했습니다). 또한 레이아웃 결과도 합리적이고 풍부합니다.
효과 표시 및 비교. 그 중 (a)~(d)는 본 팀의 시스템 생성 결과이다. (e)-(h)는 2015년에 다른 팀이 발표한 결과입니다..해당 영화는 타이타닉, 바람의 소리, 프렌즈, 업 인 디 에어입니다.

주관적인 요소의 간섭을 피하기 위해, 연구팀은 Amazon Mechanical Turk를 통해 40명의 자원봉사자를 모집하여, 팀이 생성한 결과를 다른 유사한 시스템에서 생성된 결과와 비교했습니다.

자원봉사자들은 먼저 원본 영상을 시청한 다음, 다양한 방법을 통해 생성된 만화를 읽고 효과에 대한 평가를 내렸습니다. 주관적인 편견을 피하기 위해 비디오와 해당 만화를 무작위로 배열했습니다.

그 결과, 자원봉사자들이 영상을 본 적이 있는지 여부와 관계없이 이 시스템은 다른 방법보다 더 높은 평가를 받았습니다.

한 번의 클릭으로 만화를 만들 수 있는데, 또 무엇을 할 수 있을까?

사용자로부터 긍정적인 평가를 받았지만, 시스템이 완벽하지는 않으며 아직 해결해야 할 몇 가지 문제가 있습니다.

예를 들어, 키 프레임을 선택할 때 유사성이 너무 높아 그림에 중복이 발생하는 상황이 여전히 있을 수 있습니다.

또한, 입력된 영상에 자막이 없을 경우, 시스템은 만화를 생성하기 전에 먼저 음성 인식을 통해 대사를 추출해야 합니다. 하지만 음성 인식의 결과는 종종 오류가 발생하기 쉽기 때문에 이 역시 시스템이 직면한 과제입니다. 하지만 연구팀은 음성 인식 기술이 지속적으로 발전함에 따라 이 문제는 앞으로 해결될 것으로 믿는다고 밝혔습니다.

미래에 이 기술이 충분히 성숙되면 많은 영상 작품을 열 수 있는 추가적인 방법이 생길 것입니다. 영화를 만화 형태로 "시청"하면 독자는 더 많은 상상력을 발휘할 수 있습니다.

비디오와 달리 만화는 정적이고 텍스트가 적습니다.,하지만 이로 인해 독자들은 더 많은 개인적인 감정과 상상력을 더할 수 있습니다.

게다가, 그림을 그리는 기술이 없어도 일반인이 쉽게 영상을 만화로 변환할 수 있습니다. 이 앱은 사진을 그림 스타일의 이미지로 변환할 수 있는 프리즈마 앱과 마찬가지로 새로운 대중적 엔터테인먼트 도구가 될 수 있습니다.

연구팀은 다음 단계에서 이 방법을 확장하여 텍스트 정보를 사용해 만화를 생성할 계획입니다. 즉, 만화 대본만 주어지면 시스템이 자동으로 만화를 생성해 만화가들의 시간을 크게 절약할 수 있다는 의미입니다.

만화와 TV 시리즈, 2배 이상 속도