لحل مشاكل تعلم الالة، هناك مجموعة من الخطوات التي نسير عليها لنصل الى افضل نموذج.
- تعريف المشكلة.
- تحليل و تجهيز البيانات.
- اختيار الخوارزمية.
- تدريب الخوازمية
- تقييم الخوارزمية.
تعريف المشكلة
اول خطوة هي تعريف المشكلة التي نواجها:
* هل مثلا هي مشكلة تنبأ ببيانات ما فتكون مشكلة انحدار regression ام مشكلة تصنيف classification؟ * * عدد الاصناف، هل اثنين ام اكثر؟
* ما الهدف من حلها؟
* ما مقدار الدقة المطلوبة؟
اي ان نأخذ صورة واضحة عن المشكلة التي نواجهها لنحسن التحرك في الخطوات التي تليها.
تحليل و تجهيز البيانات
البيانات تلعب دور مهم جدا في حل مشاكل تعلم الالة، فبها يتم تدريب النماذج. في هذة الخطوة نقوم:
* معرفة البيانات المتوفرة لدينا.
* الملفات التي توجد بها البيانات.
* نوع البيانات اذا كانت مستمرة او اصناف.
* المعلومات الاحصائية عن البيانات مثل: المتوسطات و التوزيع وغيرها.
* هل المعلومات كاملة ام هناك بعد التعديلات التي نحتاجها
نستخدم في هذة الخطوة عدة مكتبات مثل:
** NumPy لاجراء العمليات الحسابية على البيانات وفهما
** Pandas لقراءة البيانات والمعلومات الاحصائية و تجهيز البيانات.
** Matplotlib لعرض البياناتبشكل مرئي ليساعدنا على فهم المشكلة.
اختيار الخوازمية
هناك العديد من خوازميات تعلم الالة التي تستخدم مع كل نوع من المسائل، هناك خوارزميات لمسائل الانحدار regression و اخرى للتصنيف classification و اخرى للتجميع clustering. كما ان بعض منها يتميز مع نوع البيانات المستخدمة مثل الاصناف او المستمرة. وهناك خوارزميات تتميز مع الصور واخرى مع الارقام واخرى مع النصوص.
توفر لنا المكتبة Scikit-learn العديد من تلك الخوازميات و توفر لنا طريقة سهلة في التعامل معها.
تدريب الخوازمية
تعتير هذة الخطوة هي التطبيق الفعلى لتعلم الالة، حيث اننا ندرب الخوارزميات التي اخترناها بالبيانات وهنا نقوم بعملية اختيار المحسنات Optimizers المناسبة ودالة التعديل regularization وعدد لفات التحسين وكلها متغيرات تفرج نموذج عن نموذج. ويكون اختيارها اما بمعرفة ما يناسب كل مشكلة، لكن ايضا بالتجريب فكلما جربنا طرق مختلفة قد نحصل على نتائج افضل.
توفر المكتبة Scikit-learn طرق سهلة لتدريب الخوازميات (ما يقرب من 100 خوازمية) و استنتاج افضل نموذج.
تقيم الخوازمية
عاددة مع كل مشكلة من مشاكل تعلم الالة، نجرب عدة خوازمات و نخرج بعدة نماذج. هناك عدة طرق مختلفة لتقييم النماذج اشهرها وابسطها الدقة. لكن بالطبع هناك عدة مقاييس/ معاير اخرى يتم تقيم النماذج بها.
توفر Scikit-learn العديد من مقاييس التقيم (اكثر من 30 طريقة ) على حسب نوع المشكلة بطريقة سهلة .