الفرق بين الذكاء الإصطناعي المرتكز على البيانات والمرتكز على النماذج


صورة من موقع https://landing.ai/data-centric-ai/

تعتبر البيانات (Data) والنماذج (Model) هما أساس أي نظام مبني على الذكاء الاصطناعي، فكلاهما يقومان بمهمة محددة ولا يمكن الاستغناء عن أحدهما دون الآخر! ولكن يبقى السؤال في أيهما يتم التركيز عليه أكثر عند بناء الأنظمة الذكية؟

في الحقيقة، ظهر توجه جديد نوعًا ما خلال السنتين الماضيتين باسم الذكاء الاصطناعي المتمحور حول البيانات (Data-centric AI) ويشير إلى النهج الذي يركز على جمع وتحليل الكميات الكبيرة من البيانات لتدريب النماذج الذكية. يستخدم هذا النهج في العديد من التطبيقات مثل معالجة اللغة الطبيعية والرؤية الحاسوبية، حيث يتطلب الكثير من البيانات المصنفة لتدريب النماذج التي تفهم وتترجم النصوص والصور.

يتطلب بناء أنظمة وتطبيقات تتمحور حول البيانات على ثلاثة عناصر رئيسية هي:

  1. التركيز على البيانات وحجمها وجودتها فهي المحور الأساسي في النظام.
  2. جمع البيانات ومعالجتها وتوسيمها بشكل آلي.
  3. إشراك الخبراء المختصين في المجال الدقيق للبيانات كجزء في عملية تدقيق البيانات وتوسيمها.

في المقابل، نجد أن الذكاء الاصطناعي المتمحور حول النماذج (Model-centric AI) يركز على تطوير النماذج الرياضية الذكية وخوارزميات التعلم الآلي لبناء نماذج عالية الجودة للتعلم الآلي والتي يمكن استخدامها للتنبؤ واتخاذ القرارات. ويستخدم هذا النهج في العديد من التطبيقات مثل التمويل، حيث يتم تطوير النماذج للتنبؤ بأسعار الأسهم أو الكشف عن الغش وغيرها، ويعتبر هذا النهج هو المتسيد في الساحة خلال السنوات الماضية.

لماذا نحتاج إلى الذكاء الاصطناعي المرتكز على البيانات؟(1)

يتمثل “شعار” الذكاء الاصطناعي التقليدي المرتكز على النماذج في تحسين نواتج النماذج المعقدة وذلك باستخدام مجموعات بيانات أكبر لتحقيق مكاسب في الأداء. إلا أن هذه الطريقة قد تكون نافعة في مجالات معينة مثل الإعلام إلا أنه يواجه تحديات في مجالات أخرى مثل الرعاية الصحية، وتشمل هذه التحديات ما يلي:

  • نقص في حالات بيانات التدريب. هذا غالبًا ما يؤدي إلى نتائج مخيبة للآمال.
  • فاتورة ضخمة. يتطلب الذكاء الاصطناعي الحالي المرتكز على النماذج مجموعات بيانات ضخمة وموارد حاسوبية باهظة الثمن لتحقيق مكاسب في الأداء. بالمقابل، يركز الذكاء الاصطناعي المرتكز على البيانات على جودة البيانات بدلاً من الكمية ولا يتطلب موارد حاسوبية باهظة الثمن.
  • نتائج أقل موثوقية وعدالة. من خلال إعطاء الأولوية لجودة البيانات في نهج الذكاء الاصطناعي المرتكز على البيانات، فإننا سنحصل على فرصة أفضل للقضاء على تحيز البيانات من خلال التحليل الدقيق.
  • مجموعة معقدة من النماذج. يتطلب نهج الذكاء الاصطناعي المرتكز على النماذج نماذج متخصصة للتعامل مع المهام الدقيقة، مما يؤدي بالمنظمات إلى تجميع العديد من مجموعات البيانات والعديد من النماذج. يساهم هذا أيضًا في التكلفة المرتفعة المرتبطة بالذكاء الاصطناعي: قد يكون من الصعب توفير بيانات كافية للتعامل مع كل مشكلة صغيرة (مثل اكتشاف الأخطاء في العديد من سلع التصنيع المختلفة).

    ختاماً، لدى كلا المنهجين فوائدهم وعيوبهم الخاصة ويعتمد اختيار النهج الذي يجب استخدامه على نوع المشكلة والتطبيق المطلوب. ففي الوقت الذي تسأل فيه (Model-centric ) عن كيف يمكنك تغيير النموذج لتحسين الأداء، تسأل (Data-centric) كيف يمكنك تغيير أو تحسين بياناتك لتحسين الأداء.

    وللاستزادة حول الذكاء الاصطناعي المرتكز على البيانات يمكن زيارة بوابة (Data-centric AI) والتي كانت نتاج ورشة أقيمت في مؤتمر NeurIPS عام 2021م.

    أنواع أبحاث معالجة اللغة الطبيعية (NLP) وتوليد الأفكار

    إجراء الأبحاث في مجال معالجة اللغة الطبيعية (NLP) لا يختلف كثيراً عن مثيلاتها من المجالات الحاسوبية الأخرى، فهي إما أبحاث قائمة على التطبيقات (Applications-driven Research) أو أبحاث قائمة على الفضول (Curiosity-driven Research) دعونا نتعرف باختصار على هذين النوعين مع ذكر أمثلة عليها:

    تشير الأبحاث القائمة على التطبيقات (Applications-driven Research) إلى الأبحاث التي تركز على تطوير تطبيقات معينة قائمة على معالجة اللغة الطبيعية، مثل الترجمة الآلية وتلخيص النص وتحليل المشاعر. يعتمد هذا النوع من البحث عادةً على الحاجة إلى تحسين أداء الأنظمة الحديثة للمعالجة الطبيعية للغة أو تطوير تطبيقات جديدة. وغالبًا ما يكون الدافع وراء هذا النوع من البحث هو الرغبة في حل مشكلات معينة أو تلبية احتياجات محددة في السوق أو المجتمع.
    في المقابل الأبحاث القائمة على الفضول (Curiosity-driven Research): هي أبحاث تركز على استكشاف وفهم المبادئ الأساسية للغة الطبيعية وكيفية معالجتها من قبل البشر والآلات. غالبًا ما يكون الدافع وراء هذا النوع من البحث هو الرغبة في تعزيز فهمنا للغة وهيكلها، بدلاً من الرغبة في حل مشكلات محددة أو تلبية احتياجات محددة. من أمثلتها إجراء أبحاث لاختبار معماريات الشبكات العصبية لفهم اللغة الطبيعية وتوليدها، وتطوير خوارزميات جديدة للتحليل النحوي (syntactic parsing) ووصف الأدوار الدلالية (semantic role labeling).

     ملاحظة: في الأوراق البحثية في مجال معالجة اللغة الطبيعية سنجد في أحياناً كثيرة استخدام كلا النوعين في نفس الورقة!

    لكن يبقى السؤال الأهم وهو كيف يمكن الحصول على أفكار بحثية في المجال؟

    هناك طريقتان أساسية للحصول على أفكار بحثية في معالجة اللغة الطبيعية (NLP) وغيرها من المجالات هما: الاكتشاف التصاعدي (Bottom-up Discovery) والتصميم التنازلي (Top-down Design).

    الاكتشاف التصاعدي هو نهج بحثي يبدأ فيه الباحثون بجمع البيانات وتحليلها، ثم استخدام هذه البيانات لتشكيل فرضيات وتطوير أفكار بحثية جديدة. غالبًا ما يستخدم هذا النهج في البحث القائم على البيانات (data-driven research)، حيث يكون الهدف هو تحديد الأنماط أو الرؤى في البيانات التي يمكن استكشافها بشكل أكبر. على سبيل المثال، قد يبدأ الباحث بجمع مجموعة بيانات كبيرة لتفاعلات خدمة العملاء واستخدام هذه البيانات لتحديد مشكلات العملاء الشائعة أو أنماط اللغة الشائعة. ومن هذا المنطلق، يمكنهم تطوير أفكار بحثية جديدة حول كيفية تحسين تجربة خدمة العملاء.

    في المقابل، التصميم التنازلي هو نهج بحثي يبدأ فيه الباحثون بسؤال أو مشكلة بحث واضحة ثم يصممون التجارب أو طرق جمع البيانات للإجابة على هذا السؤال. غالبًا ما يستخدم هذا النهج في البحث القائم على النظرية (theory-driven research)، حيث يكون الهدف هو اختبار فرضية معينة أو فهم ظاهرة معينة. على سبيل المثال، قد يبدأ الباحث برغبته في فهم كيفية معالجة البشر للغة الطبيعية ثم تصميم تجارب لاختبار جوانب معينة من هذه العملية، مثل دور السياق في فهم اللغة.

    ختاماً، يمكن للباحثين استخدام كلا النهجين في أبحاثهم، بحيث يتم الجمع بين الاكتشاف التصاعدي والتصميم التنازلي من خلال البدء بسؤال أو مشكلة بحثية واضحة، وجمع البيانات وتحليلها، ثم استخدام البيانات لتحسين سؤال البحث واستكشاف مجالات بحث جديدة. يمكن أن يوفر هذا المزيج توازنًا بين البحث المبني على البيانات والمبني على النظرية، مما يؤدي إلى فهم أكثر شمولاً للموضوع.

    النماذج الأربع لتطور مجال معالجة اللغة الطبيعية

    تعودنا في مجال معالجة اللغة الطبيعية (NLP) عندما يأتي الحديث عن تطور منهجياته أن نذكر أن المجال بدأ باستخدام القواعد (Rule-based) ثم طرق تعلم الآلة (Machine Learning) وبعدها طرق التعلم العميق (Deep Learning). إلا أن هناك منظور آخر لتقدم مجال معالجة اللغة الطبيعية يتناول النماذج التي استخدمتها. ويقصد بالنماذج المستخدمة هنا بالأساليب المختلفة التي يستخدمها الباحثون والممارسون لتحسين أداء نماذج معالجة اللغة الطبيعية.

    وتشير ورقة (Liu et al. 2021) إلى النماذج الأربع، كالتالي:

    1. هندسة الخصائص (Feature Engineering): يتضمن هذا النهج تصميم وتحديد الخصائص التي تصف المعلومات الهامة في البيانات، واستخدام هذه الخصائص كمدخلات لنموذج المعالجة الطبيعية للغة. من أمثلة هذه الخصائص: العدد الكلي للكلمات، ووسوم أجزاء الكلام، وغيرها.
    2. هندسة المعمارية (Architecture Engineering): يتضمن هذا النهج تصميم وتجربة بنيات وهياكل مختلفة لتحسين الأداء. من أمثلتها استخدام الشبكات العصبية المتكررة (RNN) والشبكات العصبية التلافيفية (CNN) وشبكات المحولات.
    3. الهندسة الهدفية (Objective Engineering): تتضمن التصميم والتجربة على الأهداف المختلفة والخسارة المختلفة لتحسين أداء النموذج، مثل استخدام التعلم المعزز (Reinforcement Learning).
    4. هندسة المحفزات (Prompt Engineering): يتضمن هذا النهج تصميم وتجربة مهام مختلفة ومقاييس تقييم لتقييم أداء النموذج. من أمثلتها: الترجمة الآلية والإجابة على الأسئلة وإنشاء النصوص.

    المرجع:

    Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, Graham Neubig: “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing”, 2021