구글은 최근 Auto Draw라는 지능형 그림 그리기 소프트웨어를 출시했습니다. 이름에서 알 수 있듯이 이 소프트웨어는 자동으로 그림을 그릴 수 있습니다. 원하는 대로 소프트웨어에서 스케치를 그리면 자동으로 비슷한 그림을 찾아줍니다. 이는 매우 기본적인 인공지능 소프트웨어로, 휴대폰의 필기 입력 기능과 매우 유사합니다.
그림 그리는 법?
동시에, 알리 에슬라미와 다른 과학자들은 생체적 사고와 스스로 학습할 수 있는 능력을 갖춘 더욱 스마트한 그림 그리기 소프트웨어를 개발했습니다. 이 소프트웨어가 할 수 있는 일: 그림을 제공한 후 "복사본"을 그릴 수 있습니다. 중요한 점은 그리기 과정입니다. 즉, 소프트웨어가 스캐너처럼 단순히 스캔해서 출력하는 것이 아니라 이미지를 그릴 수 있는 능력을 가지고 있다는 것입니다.
과학자들의 연구 개발 아이디어는 다음과 같습니다.
영감:
우리는 인간이 사물의 표면만 보는 것이 아니라는 사실을 발견했습니다. 예를 들어, 우리는 건물을 볼 때 그 디자인의 복잡성에 감탄할 뿐만 아니라, 건축 기술의 우수성을 높이 평가합니다. 현상을 통해 본질을 보는 이러한 능력은 인간의 지능이 다른 종보다 우수한 중요한 이유입니다. 그러므로 우리는 인간만큼 똑똑한 소프트웨어, 혹은 인간의 사고를 모방하는 소프트웨어를 만들고자 합니다. 예를 들어, 그림을 볼 때 소프트웨어가 단순히 초상화의 픽셀을 구분하는 것이 아니라, 초상화가 어떻게 그려졌는지 "이해"할 수 있기를 바랍니다.
준비: 장비
우리는 소프트웨어에 동일한 그리기 도구를 장착했고, 소프트웨어가 숫자, 사람, 초상화가 구성되는 다양한 방식을 자동으로 구별할 수 있다는 것을 발견했습니다. 가장 중요한 점은 이러한 목표가 데이터 세트에 대한 학습 없이 자율 학습을 통해 달성된다는 것입니다. 이는 데이터세트에서 학습해야 하는 다른 프로그램과는 극명한 대조를 이루며, 이는 시간이 많이 걸릴 수 있습니다.
엔지니어 설계 아이디어
1단계: 심층 강화 학습 소프트웨어 기반
우리는 먼저 컴퓨터 그림 프로그램과 상호작용하는 심층 강화 학습 소프트웨어를 설계했습니다. 즉, 전자 펜으로 디지털 태블릿에 그림을 그리면서 브러시 크기, 압력, 색상을 원하는 대로 바꿀 수 있는 소프트웨어입니다. 하지만 그들은 훈련을 받지 않았기 때문에 그리는 획은 모두 무작위적이며 전체적인 구조를 볼 수 없습니다. 이 문제를 해결하기 위해, 우리는 더욱 가치 있는 이미지 제작을 장려하기 위한 보상과 처벌 메커니즘을 구축하기로 했습니다.
2단계: 판별기 신경망 업그레이드
그런 다음 우리는 이미지가 소프트웨어로 그려진 것인지, 아니면 실제 사진인지 판별하기 위해 판별기라는 신경망을 설계했습니다. 만약 소프트웨어가 그린 그림이 실제 사진으로 판단되면, 소프트웨어는 '보상'을 받게 됩니다. 실제로 소프트웨어의 "보상"은 판별자를 속이는 방법을 배웠다는 것입니다. 이는 이전 신경망 GANS(Generative Adversarial Networks)에서 사용한 방법과 유사하지만, 차이점은 GAN은 픽셀을 직접 출력하는 반면, 우리의 방법은 소프트웨어가 실제 이미지 환경과 상호 작용한 후 이미지를 출력한다는 것입니다.
3단계: MNIST 및 OMNIGLOT 데이터 세트에 대한 학습
첫 번째 실험에서는 소프트웨어가 MNIST 데이터 세트에 있는 것과 유사한 숫자 이미지를 생성하도록 훈련되었습니다. 소프트웨어는 판별기를 속이는 이미지를 생성하려고 시도하면서 다양한 숫자의 스타일에 맞춰 브러시를 제어하는 법을 배웠습니다. 이를 우리는 종종 시각적 프로그래밍 기술이라고 부릅니다.
4단계: 실제 사람 데이터 세트로의 확산
또한 소프트웨어에 특정 이미지를 학습시켜 "복사된" 이미지를 생성하도록 한 다음, 판별기가 "복사된" 이미지가 소프트웨어에서 생성된 것인지, 원본 이미지의 복사본인지 판별하도록 했습니다. 구별이 어려울수록 "보상"(소프트웨어가 더 많이 학습함)은 커집니다. 가장 중요한 점은 소프트웨어가 시뮬레이션된 페인트브러시를 제어하는 일련의 동작을 저장한다는 것입니다. 즉, 시뮬레이션 중에 학습한 내용을 실제 사람을 시뮬레이션하는 로봇 팔과 같은 다른 유사한 환경에 적용할 수 있습니다. 비디오 스크린샷은 다음과 같습니다.
또 다른 점은 프레임워크를 실제 데이터 세트로 확장할 수 있다는 것입니다. 유명인의 얼굴 표정을 그리는 법을 훈련할 때, 소프트웨어는 마치 거리 예술가가 몇 번의 획만으로 초상화를 그리는 것처럼 얼굴의 주요 특징, 즉 모양, 톤, 헤어스타일을 포착할 수 있습니다.
무언가가 무엇인지, 왜 그런지 아는 것은 인간이 쉽게 소유하고 자주 사용하는 능력입니다. 이 연구에서 우리는 소프트웨어가 그림을 보고 어떻게 그려졌는지 "이해"하는 데 성공했습니다.이 기간 동안 저는 시각적 프로그래밍 기술과 원인과 결과의 관계를 간결하게 표현하는 방법도 배웠습니다.
이는 작은 연구에 불과하지만, 이러한 유형의 후속 기술은 인공지능이 인간과 같은 인지, 일반화, 분석 및 의사소통 능력을 갖추는 데 필수적입니다. 단기적으로 디자이너를 대체하는 것은 불가능하고, "어도비 제품군" 중 어떤 것도 대체하는 것은 더더욱 불가능하지만, 자동 드로잉 소프트웨어의 등장으로 인공 지능의 또 다른 흥미롭고 유망한 응용 시나리오를 볼 수 있게 되었다는 것은 부인할 수 없는 사실입니다.