نظام AI الأول علنًا يحاكي التواصل الطبيعي باللغة اليابانية عبر الكلامและการ الاستماع في آن واحد
النظام الأول من نوعه في اليابان للحوار الصناعي يمكنه الكلام والاستماع في آن واحد طور فريق البحث في مختبر هيجاشيناكا التابع لجامعة ناغويا نظامًا للحوار بين الإنسان والذكاء الاصطناعي يسمى J-Moshi، وهو أول نظام متاح للجمهور يحاكي أسلوب الحوار الياباني بشكل طبيعي. يستخدم هذا النظام استجابات قصيرة تُعرف باسم "أيزوشي"، وهي تعبيرات تُستخدم لتوضيح الاستماع الفعال والتفاعل أثناء الحوار، مثل "سُو ديسو نيه" (هذا صحيح) و"ناروهودو" (أفهم). كيفية بناء نموذج J-Moshi قاد فريق التطوير بحثاء من مختبر هيجاشيناكا في كلية المعلومات بجامعة ناغويا بناء J-Moshi عن طريق تكيف النموذج الإنجليزي Moshi الذي تم إنشاؤه من قبل مختبر كيوتاي الخيري. استغرق عملية التطوير حوالي أربعة أشهر وأشتملت على تدريب النظام باستخدام العديد من قواعد البيانات اليابانية للكلام. نُشرت الدراسة على خادم الأوراق العلمية arXiv. استخدم الفريق أكبر قاعدة بيانات من J-CHAT، وهي أكبر قاعدة بيانات للحوار الياباني متاحة للجمهور، والتي أنشأتها ونشرتها جامعة طوكيو. تحتوي هذه القاعدة على حوالي 67,000 ساعة من الصوت من البودكاست وYouTube. بالإضافة إلى ذلك، استخدموا قواعد بيانات حوارية أصغر ولكن ذات جودة أعلى، بعضها جُمع داخل المختبر وبعضها الآخر يعود إلى 20-30 سنة. لزيادة بيانات التدريب، حولوا الباحثون المحادثات الكتابية إلى كلام اصطناعي باستخدام برامج تحويل النص إلى كلام طوروها لهذا الغرض. الاهتمام والتطبيقات العملية في يناير 2024، حظي J-Moshi باهتمام كبير عندما انتشرت مقاطع فيديو توضيحية له على وسائل التواصل الاجتماعي. بخلاف أفضليته التقنية، يُمكن استخدامه في تعلم اللغة، مثل مساعدة المتحدثين غير الأصليين على ممارسة وفهم أنماط الحوار الياباني الطبيعية. يُستكشف أيضًا التطبيقات التجارية للنظام في مراكز الاتصالات، والإعدادات الصحية، وخدمة العملاء. يلاحظ الباحثون أن تكييف النظام للمجالات المتخصصة أو الصناعات مُشكل بسبب النقص في موارد الكلام اليابانية مقارنة بالموارد المتاحة للإنجليزية. فرص وتحديات للتواصل بين الإنسان والروبوت شرح البروفيسور هيجاشيناكا التحديات الفريدة التي تواجه بحث الذكاء الاصطناعي الياباني: "تعاني اليابان من نقص في موارد الكلام، مما يحد من قدرة الباحثين على تدريب أنظمة الحوار الصناعي. كما يجب الأخذ بعين الاعتبار مخاوف الخصوصية." هذا النقص في البيانات أجبر الباحثين على إيجاد حلول إبداعية، مثل استخدام برامج الحاسوب لفصل الأصوات المختلطة في تسجيلات البودكاست إلى مسارات متحدثين فردية مطلوبة للتدريب. حاليًا، يواجه أنظمة الحوار صعوبة في التعامل مع الظروف الاجتماعية المعقدة، خاصة عندما يجب اعتبار العلاقات الشخصية والبيئات المادية. يمكن أن يعيق العقبات البصرية مثل الأقنعة أو القبعات أداءها حيث تغطي التعبيرات الوجهية المهمة. أظهر الاختبار في حديقة الأسماك NIFREL في أوساكا أن النظام يفشل أحيانًا في التعامل مع أسئلة المستخدمين ويحتاج إلى تدخل المشغلين البشر لاستكمال المحادثة. بينما يمثل J-Moshi إنجازًا مهمًا في التقاط الأنماط الحوارية اليابانية الطبيعية مع الكلام المتبادل والاستجابات القصيرة، فإن هذه القيود تعني أنه يحتاج حاليًا إلى أنظمة احتياطية بشرية لمعظم التطبيقات العملية. يعمل الباحثون على تحسين هذه الأنظمة الاحتياطية، بما في ذلك طرق تلخيص المحادثات وأنظمة اكتشاف تفكك المحادثة التي تُحذر المشغلين من المشاكل المحتملة لكي يمكنهم الاستجابة بسرعة. الأبحاث الأوسع نطاقًا تتجاوز أبحاث المختبر J-Moshi لتشمل عدة طرق للتواصل بين الإنسان والروبوت. بالتعاون مع زملاء يعملون على روبوتات بشرية واقعية، يتم تطوير أنظمة روبوتية تنسق بين الكلام، الإيماءات، والحركة لتحقيق التواصل الطبيعي. تُمثل هذه الروبوتات، بما في ذلك تلك التي تُصنع بواسطة شركة Unitree Robotics، أحدث التقدمات في الذكاء الاصطناعي بمظهر مادي، حيث يجب على أنظمة الحوار التنقل ليس فقط في تفاصيل الحوار بل أيضًا في الحضور المادي والوعي بالمساحة. يُعرض عمل الفريق بشكل منتظم خلال أيام الجامعة المفتوحة للحرم الجامعي، حيث يمكن للجمهور تجربة كيفية تطور أنظمة الحوار الصناعي بشكل مباشر. تم قبول ورقة بحث J-Moshi للنشر في مؤتمر Interspeech، أكبر مؤتمر دولي في مجال تقنيات البحث عن الكلام. يُتطلع البروفيسور هيجاشيناكا وفريقه إلى تقديم أبحاثهم في روتردام، هولندا، في أغسطس 2025. "في المستقبل القريب، سنشهد ظهور أنظمة قادرة على التعاون بسلاسة مع البشر عبر الكلام والإيماءات الطبيعية. أتطلع إلى إنشاء التقنيات الأساسية التي ستكون ضرورية لمجتمع تحويلي كهذا." تقييم الحدث من قبل المختصين يُعتبر J-Moshi خطوة مهمة في مجال الذكاء الاصطناعي الحواري، حيث يتجاوز التحدي التقني التقليدي بإمكانية الكلام والاستماع في آن واحد. هذا الإنجاز يفتح فرصًا جديدة للتطبيقات العملية والتجارية، مع التركيز على التحسين المستمر لضمان تجربة مستخدم أفضل. نبذة عن مختبر هيجاشيناكا يترأس البروفيسور ريوشيرو هيجاشيناكا المختبر بعد قضائه 19 عامًا كباحث في شركة NTT Corporation. عمل خلال فترة عمله في الصناعة على أنظمة حوارية للمستهلكين ووكلاء صوت، بما في ذلك مشروع لتحقيق وظيفة الإجابة على الأسئلة لخدمة Shabette Concier الصوتية من NTT DOCOMO. أسس مختبره الخاص في كلية المعلومات بجامعة ناغويا في عام 2020 لمواصلة أبحاثه حول أنماط التواصل البشرية. يضم مختبره الآن 20 عضوًا يعملون على تحديات تجمع بين البحث النظري والتطبيقات العملية، بدءًا من فهم توقيت الحوار الياباني وصولًا إلى نشر مرشدين ذكاء اصطناعي في الأماكن العامة مثل حدائق الأسماك.