OmniDataComposer: 다중모달 데이터 융합과 무한한 데이터 생성을 위한 통합 데이터 구조

이 논문은 다양한 데이터 모달 간의 복잡한 상호작용을 정제하고 단순화하기 위해 다모달 데이터 융합 및 무제한 데이터 생성을 목표로 하는 혁신적인 접근법인 OmniDataComposer를 제안한다. 핵심적인 기술적 돌파구로서, 영상, 음성, 텍스트 등 다양한 입력 데이터 모달을 처리하고 융합할 수 있는 통합적인 데이터 구조를 도입한다. 우리가 개발한 알고리즘은 영상/이미지 설명 추출, 밀도 높은 설명 추출(dense caption extraction), 자동 음성 인식(Automatic Speech Recognition, ASR), 광학 문자 인식(Optical Character Recognition, OCR), Recognize Anything Model(RAM), 객체 추적(Object Tracking) 등의 다수의 기술적 진보를 활용한다. OmniDataComposer는 6,400개 이상의 객체 카테고리를 식별할 수 있어 시각 정보의 범위를 크게 확장한다. 이러한 다양한 모달 정보를 통합함으로써 각 모달 간의 상호 보완적 강화를 촉진하고, 다모달 데이터 교정을 가능하게 한다. 최종 출력은 각 영상 입력을 풍부한 순차적 문서로 변형하며, 사실상 영상을 체계적인 서사로 전환함으로써 대규모 언어 모델(Large Language Models)이 영상 데이터를 보다 효과적으로 처리할 수 있도록 한다. 향후 연구 방향으로는 각 모달별 최적화된 데이터셋을 구축하여 무제한 데이터 생성을 촉진하는 것이 포함된다. 이러한 강력한 기반은 ChatGPT와 같은 모델들에게 귀중한 통찰을 제공하며, 영상 설명 생성을 위한 고품질 데이터셋 생성과 영상 기반 질문-응답 작업의 효율성을 높이는 데 기여할 것으로 기대된다. OmniDataComposer는 다모달 학습의 새로운 지평을 열었으며, 인공지능이 복잡한 실세계 데이터를 보다 깊이 이해하고 생성할 수 있는 놀라운 잠재력을 제시한다.