12 天前
OmniDataComposer:一种用于多模态数据融合与无限数据生成的统一数据结构
Dongyang Yu, Shihao Wang, Yuan Fang, Wangpeng An

摘要
本文提出了一种名为OmniDataComposer的创新方法,旨在实现多模态数据融合与无限数据生成,以优化并简化不同数据模态之间的交互关系。其核心突破在于引入了一种统一且高效的多模态数据结构,能够有效处理与整合包括视频、音频和文本在内的多种输入数据。我们设计的算法融合了多项先进技术,涵盖视频/图像字幕提取、密集字幕生成、自动语音识别(Automatic Speech Recognition, ASR)、光学字符识别(Optical Character Recognition, OCR)、Recognize Anything Model(RAM)以及目标追踪等能力。OmniDataComposer可识别超过6400种物体类别,显著扩展了视觉信息的覆盖范围。该系统通过融合多种模态数据,促进各模态间的相互增强,并实现跨模态的数据校正与互补。最终输出将每一帧视频转化为结构化、连贯的序列化文档,几乎实现了从视频到完整叙事的形态转变,极大提升了视频内容被大型语言模型理解与处理的可行性。未来工作将聚焦于针对各模态优化数据集构建,进一步推动无限数据生成。这一强大的基础框架将为ChatGPT等模型提供宝贵的数据支持,助力其生成更高质量的视频字幕,并显著降低基于视频内容的问答任务难度。OmniDataComposer标志着多模态学习进入全新阶段,为增强人工智能对复杂现实世界数据的理解与生成能力开辟了广阔前景。