نظرة على خطوط أنابيب البيانات في النماذج اللغوية الضخمة

صورة لخط البيانات CCNet (المصدر مدونة Christian S. Perone)

التعامل مع النصوص الطبيعية هو واحد من أهم التحديات في مجال تعلم الآلة. يتطلب ذلك تنظيف وتحليل البيانات النصية من مصادر مختلفة ومتنوعة ثم تحويلها إلى نتائج مفيدة وقابلة للتطبيق. لهذا الغرض، يحتاج الباحثون والمطورون إلى خطوط أنابيب البيانات (data pipelines)، وهي عملية تسلسلية تربط بين مراحل مختلفة من معالجة البيانات. في هذا المقال، سألخص ما كتبه كريستيان بيرون (Christian S. Perone)، باحث في مجال تعلم الآلة عن خطوط الأنابيب التي تُستخدم لتدريب LLaMA، وهي أحدث النماذج اللغوية المتقدمة.

تبدأ العملية مع مصدر البيانات، والذي في هذه الحالة هو Common Crawl، وهو منظمة غير ربحية تقوم بالزحف الضخم للمواقع الإلكترونية وتوفر البيانات بتنسيقات مختلفة. تستخدم النماذج اللغوية عادة الأشكال الثانوية، WAT و WET، والتي تحتوي على بيانات معالجة مسبقاً.

يتطلب تنقية هذه البيانات الكثير من الخيارات. فخط بيانات CCNet (هي أداة تم تطويرها لاستخراج مجموعات بيانات أحادية اللغة عالية الجودة من بيانات التصفح على الويب. تم تطويره من قبل Meta ويستخدم في تدريب العديد من النماذج اللغوية الكبيرة)، على سبيل المثال، تستخدم تنسيق WET، والذي يتمثل في النص فقط، بينما تستخدم الأنابيب الأخرى، مثل The Pile، تنسيق WAT، مع الادعاء بأنه يمكن استخراج نص ذات جودة أعلى. أما الأنابيب الأخرى، مثل RefinedWeb، فتستخدم WARC مباشرة وتتجاوز خطوط الأنابيب Common Crawl لاستخراج النص.

علاوة على ذلك، تستخدم العديد من الأنابيب قوائم الحظر العامة للروابط (URL Filtering) لتصفية المواقع الإلكترونية التي تحتوي على محتوى غير لائق أو ضار. يمكن أن يتم تصفية الروابط URL بناءً على الكلمات أو باستخدام قوائم الحظر التي تضم الملايين من النطاقات.

بعدها تأتي عملية إزالة التكرار (deduplication)، وهي خطوة حاسمة في خط البيانات المستخدم لإنشاء مجموعات البيانات لتدريب النماذج اللغوية الكبيرة. ويعّرف إزالة التكرار، كما يوحي الاسم، بأنه عملية إزالة البيانات المكررة من مجموعة البيانات. هذه الخطوة مهمة لأن وجود بيانات مكررة في مجموعة التدريب يمكن أن تؤدي إلى التخصيص الزائد، حيث يتعلم النموذج تقليد بيانات التدريب بدلاً من التعلم للتعميم منها. في المقابل، تنفذ RefinedWeb عملية إزالة التكرار بشكل أكثر صرامة، مما يؤدي إلى معدلات إزالة أعلى بكثير من ما تم الإبلاغ عنه في مجموعات بيانات أخرى. كما يلاحظ CCNet أن هذه الخطوة تساعد في إزالة الكثير من البيانات غير الضرورية وتحسين تحديد اللغة.

التصفية في نماذج اللغة الكبيرة (LM Filtering) هي عملية مهمة للغاية في تحسين جودة البيانات المستخدمة في التدريب. بشكل عام، يتم تطبيق عمليات التصفية لاستبعاد المحتوى غير المرغوب فيه أو المحتوى الذي قد يكون ضارًا أو مضللاً. في عملية التدريب، تلعب التصفية دورًا هامًا في تحديد البيانات التي تتعلم منها النماذج اللغوية، وبالتالي يمكن أن تؤثر بشكل كبير على الأداء النهائي للنموذج​.

في النهاية، يُظهر التعقيد المرتبط بخطوط أنابيب البيانات أن بناء مجموعة بيانات لتدريب النماذج اللغوية الكبيرة ليس بالمهمة السهلة. يتطلب الأمر الكثير من القرارات التقنية والمعرفة بأفضل الممارسات وأحدث الأبحاث. ومع ذلك، فإن النتائج الممتازة التي تحققها هذه النماذج تثبت أن الجهد يستحق ذلك.

ختاماً، هذا المقال مفيد لأي شخص يهتم بمجال تعلم الآلة والمعالجة اللغوية الطبيعية. حيث يوفر نظرة عامة على خطوط أنابيب البيانات في النماذج الضخمة وكيفية استخدامها لحل مشكلات معقدة. لذلك يرجى ملاحظة أن هذا الموضوع معقد ويتطلب فهمًا أعمق للتفاصيل. لمزيد من المعلومات، يرجى الرجوع إلى التدوينة الأصلية!

ما الفرق بين الاستبدال والتكرار في البحث العلمي؟

كيف يمكننا التأكد من صحة الادعاءات العلمية والاستنتاجات التي يقوم بها الباحثون في أوراقهم البحثية؟ هذا هو السؤال الذي يطرحه هانس بليسر (Hans E. Plesser) في مقالته المنشورة في مجلة Frontiers in Neuroinformatics بعنوان (Reproducibility vs. Replicability: A Brief History of a Confused Terminology -الاستبدال مقابل التكرار: تاريخ موجز لمصطلح مربك) ويشير إلى أن هذا السؤال يتطلب تفريقاً بين مفهومي الاستبدال (replicability) والتكرار (reproducibility)، واللذين يستخدمان بشكل مختلف في العلوم التجريبية والحاسوبية. ويقدم بليسر تاريخاً موجزاً لأصل هذا الاختلاف، ويقترح حلاً للخروج من الارتباك الناتج عنه.

يبدأ بليسر بشرح أهمية تقديم وصف منهجي ودقيق لإجراء التجربة وتحليل البيانات، والانتباه إلى مصادر الخطأ المحتملة، سواء كانت منهجية أو إحصائية. ويذكر أن التجربة أو التحليل يجب أن توصف بما يكفي من التفاصيل حتى يتمكن العلماء الآخرون من تكرار الخطوات الموصوفة في العمل المنشور والحصول على نفس النتائج ضمن هوامش الخطأ التجريبي. كما يذكر أن التأكيد المستقل على القياس أو الظاهرة المستخدمة في وسائل تجريبية مختلفة سيكون متوقع عندما يتم الحصول على رؤى أساسية في الطبيعة. ويعرض بعض الأمثلة على كيف أدى الشك في تفسير بعض النتائج إلى نشوء فروع جديدة من العلم.

ثم ينتقل بليسر إلى مناقشة التحديات والممارسات المتعلقة باستبدال وتكرار النتائج في العلوم الحاسوبية، والتي تستخدم أجهزة الحاسب لإجراء تجارب محاكاة وتحليل للبيانات. ويشير إلى أن هذه العلوم تستخدم مصطلحات مختلفة عن العلوم التجريبية، حيث يعني التكرار تشغيل نفس البرنامج على نفس بيانات الإدخال والحصول على نفس النتائج، بينما يعني الاستبدال، كتابة وتشغيل برنامج جديد بناءً على وصف النموذج أو الطريقة الحسابية الموجودة في الورقة، والحصول على نتائج مماثلة بما فيه الكفاية. ويسمي بليسر هذه المصطلحات بمصطلحات كلاربوت (Claerbout)، نسبة إلى أحد العلماء الذين اقترحوها.

ويشير بليسر إلى أن هذا الاستخدام لمصطلحات الاستبدال والتكرار يتعارض مع المصطلحات المستخدمة في العلوم التجريبية منذ وقت طويل. ويستشهد بكتاب قياسي في الكيمياء التحليلية يفرق بين الاستبدال والإعادة، حيث تعني الاستبدال دقة الطريقة بين تجارب مختلفة تجرى في أوقات وأماكن وظروف مختلفة، بينما تعني الإعادة دقة الطريقة داخل تجربة واحدة تجرى في نفس الوقت والمكان والظروف. كما يستشهد بالمفردات الدولية للقياس، التي تعرف شروط الاستبدال والإعادة للقياس.

وبناءً على هذه التعاريف، يستخدم اتحاد علوم الحاسب (ACM) المصطلحات التالية:

  • الإعادة (Repeatability): الحصول على نفس القياس بواسطة نفس الفريق باستخدام نفس الإجراء ونفس النظام القياسي تحت نفس الظروف في نفس الموقع في تجارب متعددة. بالنسبة للتجارب الحاسوبية، هذا يعني أن الباحث يمكنه إعادة حسابه بشكل موثوق.
  • الاستبدال(Replicability): الحصول على نفس القياس بواسطة فريق مختلف باستخدام نفس الإجراء ونفس النظام القياسي تحت نفس الظروف في نفس الموقع أو موقع مختلف في تجارب متعددة. بالنسبة للتجارب الحاسوبية، هذا يعني أن مجموعة مستقلة يمكنها الحصول على نفس النتيجة باستخدام المنتجات التي قام بها المؤلف.
  • التكرار (Reproducibility): الحصول على نفس القياس بواسطة فريق مختلف ونظام قياسي مختلف في موقع مختلف في تجارب متعددة. بالنسبة للتجارب الحاسوبية، هذا يعني أن مجموعة مستقلة يمكنها الحصول على نفس النتيجة باستخدام منتجات تم تطويرها بشكل مستقل.

لحل الارتباك في المصطلحات، يقترح بليسر استخدام مصطلحات جديدة اقترحها غودمان وزملاؤه (Goodman et al. (2016))، وهي:

  • إعادة إنتاج المنهجية (Methods reproducibility): تقديم تفاصيل كافية عن الإجراءات المنهجية والبيانات بحيث يمكن تكرار نفس الإجراءات بالضبط.
  • إعادة إنتاج النتائج (Results reproducibility): الحصول على نفس النتائج من دراسة مستقلة تتبع إجراءات مطابقة للدراسة الأصلية قدر الإمكان.
  • إعادة إنتاج الاستدلال (Inferential reproducibility): الوصول إلى نفس الاستنتاجات من إعادة تحليل الدراسة الأصلية أو تكرارها بشكل مستقل.

ويعتبر بليسر هذه المصطلحات خطوة هامة للخروج من المستنقع المصطلحي الذي عالق فيه النقاش النشط والمثمر حول موثوقية البحث للعقد الماضي، لأنها تتجنب التباس المعاني الشائعة للمصطلحات بوضع تسميات واضحة. ويأمل أن تتبنى هذه المصطلحات على نطاق واسع حتى يتمكن النقاش من التركيز مرة أخرى على القضايا العلمية بدلاً من اللغوية.