تحويل الصورة إلى JSON: كيف صنعت ماسح الفواتير باستخدام جيمي وسويفت
التحول من الصورة إلى البيانات المنظمة: كيف صممت تطبيق مسح الفواتير باستخدام جيمي وسوييفت التركيز على تقنيات هندسة الأوامر والذكاء الاصطناعي متعدد الوسائط. الصورة: الذكاء الاصطناعي التوليدية (ChatGPT 4o). أوامر من قبل الكاتب. صندوق الأحذية المليء بالفواتير المُستهلكة هو رمز شائع لعدم الترتيب المالي. بالنسبة للعمل الحر والتجار الصغار والأشخاص الذين يهتمون بتفاصيل ميزانيتهم، فإن إدخال المصاريف يدويًا يُعد مهامًا متعبة ومرشحة للخطأ. أدوات التعرف على النصوص البصرية (OCR) التقليدية قدمت حلولًا جزئية، لكنها كانت محدودة في التعامل مع الفواتير المطوية أو المضاءة بشكل سيء أو ذات تنسيق غير معتاد. اليوم، يمكننا تحسين هذا الأمر. هذا المقال يتناول التكنولوجيا التي تعمل عليها تطبيق "Receipt Lens"، وهو تطبيق أنشأتُه لحل هذه المشكلة. التطبيق لا يقتصر على مسح الفواتير فحسب، بل يفهمها أيضًا. من خلال دمج الذكاء الاصطناعي متعدد الوسائط القوي من جوجل، وهو "جيمي"، يحول التطبيق صورة بسيطة إلى بيانات مالية منظمة وقابلة للتنفيذ. في هذه المقالة، سنتناول كيف يعمل هذا النظام، من الكاميرا حتى عقل الذكاء الاصطناعي، ثم عودة البيانات إلى المستخدم. لقطات شاشة من التطبيق الفعلي. التحديات التي تواجه الورق (والOCR التقليدي) الفاتورة ليست مجرد نصوص؛ بل هي وثيقة تحمل بنية وسياقًا داخليًا. قد يُقدم ماسح النصوص البصري التقليدي نتائج جزئية، لكنه غالبًا ما يفشل في استخراج البيانات بشكل دقيق أو ترتيبها بطريقة منطقية. على سبيل المثال، قد يعاني من صعوبة في تحديد المبلغ الإجمالي أو تحديد الأسماء أو العناوين، خصوصًا إذا كانت الفاتورة غير منظمة أو تحتوي على صور أو رسومات. لذلك، اعتمدتُ على تقنيات متعددة الوسائط لتحسين دقة الاستخراج. في التطبيق، عندما يلتقط المستخدم صورة لفاتورة، يتم توجيهها إلى نموذج جيمي، الذي يستطيع تحليل الصورة والنص معًا. هذا يتيح للنظام فهم السياق بشكل أفضل، مثل تحديد أن النص الذي يحمل الرقم 100 هو "المجموع" وليس "الرقم التسلسلي". أيضًا، تم تحسين الأوامر (Prompt Engineering) لجعل النموذج أكثر دقة في استخراج البيانات المطلوبة. تم تصميم الأوامر بحيث تُوجه جيمي لتحديد العناصر المهمة في الفاتورة، مثل التاريخ، المبلغ، والبائع، وتحويلها إلى تنسيق منظم مثل JSON. هذا يساعد في تجميع البيانات بشكل فوري وتحويلها إلى قواعد بيانات أو تقارير مالية. التحدي الأكبر كان في التعامل مع الفواتير غير القياسية. فبعضها قد يحتوي على نصوص مُكتوبة بخط مائل أو مُعكوسة، أو قد تكون الصورة غير واضحة. لذلك، قمت بتطوير نموذج يُحسّن جودة الصورة قبل إرسالها إلى جيمي، باستخدام تقنيات معالجة الصور داخل سوييفت. النتيجة النهائية هي تطبيق يُسهم في تبسيط إدارة المصاريف، ويقلل من الوقت والجهد المطلوبين لتسجيل الفواتير يدويًا. كما أن التكامل مع جيمي يمنح التطبيق قدرات تحليلية متقدمة، مما يفتح المجال لتطوير ميزات إضافية مثل التصنيف التلقائي للمصاريف أو التنبؤ بالإنفاق. باختصار، هذه التجربة أظهرت كيف يمكن للذكاء الاصطناعي متعدد الوسائط أن يُحدث فرقًا كبيرًا في تطبيقات إدارة المصاريف، وقدمت رؤية حول كيفية تطوير مثل هذه الأدوات بسهولة باستخدام أدوات حديثة مثل سوييفت وجيمي.
