الفرق بين الذكاء الإصطناعي المرتكز على البيانات والمرتكز على النماذج


صورة من موقع https://landing.ai/data-centric-ai/

تعتبر البيانات (Data) والنماذج (Model) هما أساس أي نظام مبني على الذكاء الاصطناعي، فكلاهما يقومان بمهمة محددة ولا يمكن الاستغناء عن أحدهما دون الآخر! ولكن يبقى السؤال في أيهما يتم التركيز عليه أكثر عند بناء الأنظمة الذكية؟

في الحقيقة، ظهر توجه جديد نوعًا ما خلال السنتين الماضيتين باسم الذكاء الاصطناعي المتمحور حول البيانات (Data-centric AI) ويشير إلى النهج الذي يركز على جمع وتحليل الكميات الكبيرة من البيانات لتدريب النماذج الذكية. يستخدم هذا النهج في العديد من التطبيقات مثل معالجة اللغة الطبيعية والرؤية الحاسوبية، حيث يتطلب الكثير من البيانات المصنفة لتدريب النماذج التي تفهم وتترجم النصوص والصور.

يتطلب بناء أنظمة وتطبيقات تتمحور حول البيانات على ثلاثة عناصر رئيسية هي:

  1. التركيز على البيانات وحجمها وجودتها فهي المحور الأساسي في النظام.
  2. جمع البيانات ومعالجتها وتوسيمها بشكل آلي.
  3. إشراك الخبراء المختصين في المجال الدقيق للبيانات كجزء في عملية تدقيق البيانات وتوسيمها.

في المقابل، نجد أن الذكاء الاصطناعي المتمحور حول النماذج (Model-centric AI) يركز على تطوير النماذج الرياضية الذكية وخوارزميات التعلم الآلي لبناء نماذج عالية الجودة للتعلم الآلي والتي يمكن استخدامها للتنبؤ واتخاذ القرارات. ويستخدم هذا النهج في العديد من التطبيقات مثل التمويل، حيث يتم تطوير النماذج للتنبؤ بأسعار الأسهم أو الكشف عن الغش وغيرها، ويعتبر هذا النهج هو المتسيد في الساحة خلال السنوات الماضية.

لماذا نحتاج إلى الذكاء الاصطناعي المرتكز على البيانات؟(1)

يتمثل “شعار” الذكاء الاصطناعي التقليدي المرتكز على النماذج في تحسين نواتج النماذج المعقدة وذلك باستخدام مجموعات بيانات أكبر لتحقيق مكاسب في الأداء. إلا أن هذه الطريقة قد تكون نافعة في مجالات معينة مثل الإعلام إلا أنه يواجه تحديات في مجالات أخرى مثل الرعاية الصحية، وتشمل هذه التحديات ما يلي:

  • نقص في حالات بيانات التدريب. هذا غالبًا ما يؤدي إلى نتائج مخيبة للآمال.
  • فاتورة ضخمة. يتطلب الذكاء الاصطناعي الحالي المرتكز على النماذج مجموعات بيانات ضخمة وموارد حاسوبية باهظة الثمن لتحقيق مكاسب في الأداء. بالمقابل، يركز الذكاء الاصطناعي المرتكز على البيانات على جودة البيانات بدلاً من الكمية ولا يتطلب موارد حاسوبية باهظة الثمن.
  • نتائج أقل موثوقية وعدالة. من خلال إعطاء الأولوية لجودة البيانات في نهج الذكاء الاصطناعي المرتكز على البيانات، فإننا سنحصل على فرصة أفضل للقضاء على تحيز البيانات من خلال التحليل الدقيق.
  • مجموعة معقدة من النماذج. يتطلب نهج الذكاء الاصطناعي المرتكز على النماذج نماذج متخصصة للتعامل مع المهام الدقيقة، مما يؤدي بالمنظمات إلى تجميع العديد من مجموعات البيانات والعديد من النماذج. يساهم هذا أيضًا في التكلفة المرتفعة المرتبطة بالذكاء الاصطناعي: قد يكون من الصعب توفير بيانات كافية للتعامل مع كل مشكلة صغيرة (مثل اكتشاف الأخطاء في العديد من سلع التصنيع المختلفة).

    ختاماً، لدى كلا المنهجين فوائدهم وعيوبهم الخاصة ويعتمد اختيار النهج الذي يجب استخدامه على نوع المشكلة والتطبيق المطلوب. ففي الوقت الذي تسأل فيه (Model-centric ) عن كيف يمكنك تغيير النموذج لتحسين الأداء، تسأل (Data-centric) كيف يمكنك تغيير أو تحسين بياناتك لتحسين الأداء.

    وللاستزادة حول الذكاء الاصطناعي المرتكز على البيانات يمكن زيارة بوابة (Data-centric AI) والتي كانت نتاج ورشة أقيمت في مؤتمر NeurIPS عام 2021م.