HyperAIHyperAI
منذ 12 أيام

OmniDataComposer: هيكل بيانات موحد لدمج البيانات متعددة الوسائط وإنشاء بيانات غير محدودة

Dongyang Yu, Shihao Wang, Yuan Fang, Wangpeng An
OmniDataComposer: هيكل بيانات موحد لدمج البيانات متعددة الوسائط وإنشاء بيانات غير محدودة
الملخص

تقدم هذه الورقة البحثية منهجية جديدة تُدعى OmniDataComposer، وهي منهج مبتكر لدمج البيانات متعددة الوسائط وإنتاج كميات غير محدودة من البيانات، بهدف تحسين التفاعل بين أنواع البيانات المختلفة وتبسيطه. وفي جوهر هذا الإنجاز، تم تقديم هيكل بيانات متماسك قادر على معالجة دمج مدخلات البيانات متعددة الوسائط، والتي تشمل الفيديو والصوت والنص.يعتمد الخوارزمية التي تم تصميمها على تقدم متعدد العمليات، مثل استخراج عناوين الفيديو/الصور، واستخراج العناوين الكثيفة، وتقنيات التعرف التلقائي على الكلام (ASR)، وتقنيات التعرف البصري على النصوص (OCR)، ونموذج التعرف على أي شيء (Recognize Anything Model - RAM)، وتعقب الكائنات. وتتميز OmniDataComposer بقدرتها على التعرف على أكثر من 6400 فئة من الكائنات، مما يوسع بشكل كبير طيف المعلومات البصرية. كما تدمج هذه الوسائط المتنوعة، ما يعزز التحسين المتبادل بين الوسائط ويُسهّل تصحيح البيانات عبر الوسائط المختلفة. \textbf{وينتج عن ذلك تحول جوهري في كل مدخل فيديو إلى مستند تسلسلي معقد}، ما يحوّل الفيديوهات تقريبًا إلى قصص شاملة، مما يجعل من السهل معالجتها بواسطة نماذج اللغة الكبيرة.ومن الأفق المستقبلية، تشمل التحسينات على مجموعات البيانات الخاصة بكل وسائط لتعزيز إمكانية إنتاج بيانات غير محدودة. وسيوفر هذا الأساس القوي رؤى ثمينة للنماذج مثل ChatGPT، ما يمكّنها من إنشاء مجموعات بيانات عالية الجودة لوصف الفيديو، ويُبسط مهام الإجابة على الأسئلة بناءً على محتوى الفيديو. وتمهّد OmniDataComposer الطريق لمرحلة جديدة في التعلم متعدد الوسائط، وتوفر إمكانات هائلة لتعزيز قدرة الذكاء الاصطناعي على فهم وإنشاء البيانات المعقدة الواقعية.

OmniDataComposer: هيكل بيانات موحد لدمج البيانات متعددة الوسائط وإنشاء بيانات غير محدودة | أحدث الأوراق البحثية | HyperAI