وصف المدون

الصفحة الرئيسية دورة احتراف تعلم الآلة أو machine learing مع التطبيقات و الأمثلة ببايثون - من الصفر إلى الإحتراف -

دورة احتراف تعلم الآلة أو machine learing مع التطبيقات و الأمثلة ببايثون - من الصفر إلى الإحتراف -

 




في هذه المقالة سنتطرق للنقاط التالية :
✔️ ما هو تعلم الآلة
✔️ أمثلة لتعلم الآلة
✔️ خوارزميات تعلم الآلة
✔️ خطوات عمل خوارزميات تعلم الآلة
✔️ أنواع تعلم الآلة 
✔️ شرح خوارزميات تعلم الآلة (Linear Regression ، Logistic Regression ، Neural Network (NN) ، Decision Tree ، Support vector Machines(SVM) ، Naïve Bayes ، K-Nearest Neighbors(KNN) ، K-means ، Random Forest ، Principle Component Analysis(PCA))


✔️ ما هو تعلم الآلة ؟

هو أحد فروع الذكاء الاصطناعي التي تهتم بتصميم خوارزميات تسمح للحواسب بامتلاك خاصية " التعلم " بدون برمجة القواعد لكل مسألة .
نشبه "تعلم الآلة" بتعلم طفل صغير منذ ولادته على التعرف تدريجيا على الأشياء و الأصوات عن طريق تدريبه و تصحيح معلوماته و تكرار العملية لحين التعلم . و كلما زاد التدريب و البيانات زادت المعرفة و الخبرة و الطفل يتعلم إما عن طريق الإشراف المباشر من قبل والديه ، أو عن طريق التعرض مباشرة لحدث ما حيث يكتسب الخبرة .

✔️ أمثلة لتعلم الآلة

التمييز و التعرف على الأشياء ( الوجوه ، الصور ، الأحرف و- الكلمات و النصوص ، الأصوات، الموسيقى ...)
محركات البحث و أمن المعلومات و التسويق- 
اتخاذ قرارات و توصيات من خلل محاكاة شبكة الخلايا العصبية- في ذماغ الإنسان
المساهمة في تطوير انسان آلي -

✔️ خوارزميات تعلم الآلة

خوارزميات تعلم الآلة هي مجموعة من البرامج توضع بشكل عام و بقواعد عامة لمعالجة البيانات المخلة بكافة الأشكال و تقوم بإيجاد العلاقات و الأنماط في البيانات عن طريق تطبيق معادلات إحصائية و رياضية حيث تتسم كل خوارزمية بصفات و مخرجات معينة ، لتستطيع تمثيل البيانات بطرق مختلفة أو التنبؤ بمخرجات لبيانات جديدة بناءً على العلاقات و الأنماط المستنتجة من البيانات المدخلة .

✔️ خطوات عمل خوارزميات تعلم الآلة

يتم أولا استدعاء المكتبات التي يستوجب العمل بها في المشروع ، ثم تحميل البيانات و معالجتها بمكتبة باندا ، ثم اختيار نموذج تعلم الآلة المناسب و تدريبه على البيانات التي أدخلناها من قبل ، و بعدها يتم حساب دقة النموذج و التنبؤ بقيم جديدة .

✔️ أنواع تعلم الآلة

التعلم بالإشراف-SUPERVISED LEARNING

التعلم بالإشراف : يتم تدريب الحاسوب عن طريق إعطائه البيانات و مخرجات البيانات ( لذلك يسمى بالإشراف حيث نشرف على التعلم بإعطاء المخرجات للبيانات) ، و من خلال التدريب يبني الحاسوب علاقات و أنماط بين البيانات و المخرجات ليستطيع لاحقا التنبؤ بمخرجات بيانات جديد .


التعلم بدون إشراف UNSUPERVISED LEARNING 


التعلم بدون إشراف : يتم تدريب الحاسوب عن طريق إعطائه البيانات فقط ( لذلك يسمى بدون إشراف حيث لا نشرف على التعلم و لا نعطي مخرجات البيانات) ، و من خلال التدريب يبني الحاسوب علاقات و أنماط بين البيانات نفسها ليستطيع التنبؤ بمخرجات البيانات .

التعلم شبه الخاضع للإشراف SEMI SUPERVISED LEARNING 

التعلم شبه الخاضع للإشراف هو مشكلة تعليمية تتضمن عددًا صغيرًا من الأمثلة المصنفة وعددًا كبيرًا من الأمثلة غير المصنفة.
تعتبر مشكلات التعلم من هذا النوع صعبة حيث لا يمكن لخوارزميات التعلم الخاضعة للإشراف أو غير الخاضعة للإشراف الاستفادة الفعالة من مزيج البيانات المصنفة وغير القابلة للرواية. على هذا النحو ، فإن خوارزميات التعلم المتخصصة تحت الإشراف شبه مطلوبة.

التعلم المعزز REINFORCEMENT LEARNING 

التعلم المعزز هو الحقل الفرعي لتعلم الآلة و هو نظام مستقل ذاتي التعليم ، يتعلم أساسا عن طريق التجربة و الخطأ ، و ينفذ أعمال بهدف زيادة المكافآت و يدرس كيف يمكن للعميل تعلم كيفية تحقيق الأهداف في بيئة معقدة و غير مؤكدة ، من أجل تحقيق أفضل النتائج . 


سنركز في هذه المقالة على الخوارزميات الأكثر استعمالا في التعلم بالإشراف و التعلم بدون إشراف ، و سنقوم بتجهيز مقالة خاصة بالتعلم المعزز  في المسقبل القريب إن شاء الله.


✔️ شرح خوارزميات تعلم الآلة

قبل أن نشرح خوارزميات تعلم الآلة دعونا نتعرف أولا على overfitting  و underfitting  .


ببساطة underfitting هو حينما يكون النموذج ضعيف في التدريب و أيضا ضعيف في التنبؤ ،  و overfitting حينما يكون النموذج جيد في التدريب لكن ضعيف في التنبؤ .


المحنى الخطي –Linear Regression
Supervised –Regression - التعلم بإشراف ، التوقع

الخوارمية تبني أفضل خط ليشمل جميع نقاط البيانات .
يتم استخدامه لتقدير القيم الحقيقية ( مثلا : إيجاد أفضل و أنسب كلفة المنازل ، عدد المكالمات ، إجمالي المبيعات و ما إلى ذلك ) على أساس المتغير المستمر .
نقيم علاقة بين المتغيرات المستقلة و غير المستقلة عن طريق تركيب أفضل خط ، و
يعرف هذا الخط الأكثر ملاءمة باسم خط الانحدار أو الميلان و يمثله المعادلة الخطية
Y = a*x + b

الإيجابيات :
* أحد أكثر الخوارزميات المعروفة في الإحصاء و التعلم الآلي 
* تقنية سريعة و بسيطة و خوارزمية أولية جيدة
* سهل الإستخدام لأنه يتطلب الحد الأدنى من الضبط .

السلبيات :
* يقتصر على العلاقات الخطية 
* حساس اتجاه القيم المتطرفة 
* البيانات يجب أن تكون مستقلة
* يقتصر على التنبؤ بالمخرجات الرقمية


المحنى اللوجستي –Logistic Regression
Supervised –Classification - التعلم بإشراف ، التصنيف

* هو نموذج احصائي يستخدم للتنبؤ باحتمالية وقوع حدث ما و ذلك بملاءمة البيانات على منحنى لوجستي ، تقاس النتيجة بمتغير ثنائي التفرع ( يوجد فيه نتيجتان محتملتان فقط) ، يتم استخدام عدة متغيرات متوقعة و التي يمكن أن تكون رقمية أو فئوية ... ، و يُستخدم أيضا بشكل ملحوظ في الطب و العلوم الإجتماعية ، كما يستخدم في التسويق أيضا لحساب توقعات المستهلكين .
 .
و هو تقدير لوظيفة Logit و هي ببساطة سجل من الإحتمالات لصالح حدث ما . هذه الوظيفة تخلق منحنى على شكل حرف مع تقدير الإحتمال ، يتم استخدامه لتقدير القيم المنفصلة ( 0/1 ، نعم/لا ، صواب/خطأ ) بناءًا على مجموعة معينة من المتغيرات المستقلة ، و بكلمات بسيطة ، تتنبأ باحتمالية حدوث حدث من خلال تركيب البيانات على وظيفة Logit .



الإيجابيات :
* قوي : ليس بالضرورة أن تكون المتغيرات المستقلة موزعة بشكل طبيعي ، أو يكون لها تباين متساو في كل مجموعة 
* قد يتعامل مع التأثيرات اللاخطية 
* أسهل للمتابعة و أقل تعقيدا

السلبيات :
* يتطلب الكثير و المزيد من البيانات لتحقيق نتائج مستقرة و ذات مغزى 
* ليست قوية بالنسبة إلى القيم المتطرفة و القيم المفقودة


الشبكات العصبية–Neural Network
Supervised –Unsupervised - التعلم بإشراف ، بدون إشراف

* و هي تقنيات حسابية مصممة لمحاكاة الطريقة التي يؤدي بها الدماغ البشري مهمة معينة ، و ذلك عن طريق معالجة ضخمة موزعة على التوازي ، و مكونة من وحدات معالجة بسيطة ، هذه الوحدات ما هي إلا عناصر حسابية تسمى عصبونات أو عقد ،  و التي لها خاصية عصبية ، من حيث أنها تقوم بتخزين المعرفة العملية  و المعلومات التجريبية لتجعلها متاحة للمستخدم و ذلك عن طريق ضبط الأوزان .
* تقوم الخوارزمية بالتدريب عن طريق ضبط الأوزان في العقد و تمريرها إلى الطبقات الأخرى للتدريب و إخراج النتائج

الإيجابيات :
* أكثر الخوارزميات المعروفة و المستخدمة في التعلم الآلي و التعلم العميق
* تقنية سريعة و بسيطة و توافر خوارزميات التدريب المتعددة .
* القدرة على الكشف عن العلاقات غير الخطية المعقدة بين المتغيرات المستقلة ، و القدرة على اكتشاف معظم التفاعلات الممكنة بين متغيرات التوقع

السلبيات :
* تحتاج إلى حسابات مكثفة و إلى أجهزة سريعة 
* تحديد بنية الشبكة المناسبة يعتبر تحدي
* بعض الأحيان ، سلوك غير مفسر للشبكة ، و من الصعب متابعة الشبكة و التصحيح .


شجرة القرار–Decision Tree
Supervised –Classification , Regression - التعلم بإشراف ، التوقع، التصنيف

* هي نوع من خوارزميات التعلم بإشراف التي تُستخدم في الغالب لمشكلات التصنيف .
* تعمل لكل من المتغيرات المستقلة الفئوية و المستمرة .
* في هذه الخوارزمية ، نقسم البيانات إلى مجموعتين متجانستين أو أكثر ، يتم ذلك بناءًا على أهم السمات و المتغيرات المستقلة لجعلها مجموعات مميزة قدر الإمكان .
* على عكس النماذج الخطية ، فهي تبني العلاقات الغير الخطية بشكل جيد ، فهي قابلة للتكثيف في حل أي نوع من المشاكل في متناول اليد (التصنيف أو التوقع) .

الإيجابيات :
* تعتبر واحدة من أفضل أساليب التعلم بإشراف .
* سهلة التعلم و مفيدة في استكشاف البيانات و لا تتطلب تنظيف كثير للبيانات و لا تتقيد بنوع البيانات .
* تمكين النماذج التنبؤية بدقة عالية و استقرار و سهولة في التفسير .

السلبيات :
* كلما زاد عدد القرارات في الشجرة كلما قلت دقة النتائج

شعاع الدعم الآلي –Support Vector Machine
Supervised –Classification , Regression - التعلم بإشراف ، التوقع، التصنيف

* هي خوارزمية تعلم الآلة خاضعة للإشراف ، و هي خوارزمية تصنيف و توقع ، تستخدم في الغالب في مشاكل التصنيف .
* في هذه الخوارزمية نرسم كل عنصر بيانات كنقطة في فضاء الأبعاد مع قيمة كل ميزة 
* شعاع الدعم الآلي هو الحد الأقصى الذي يعزل صنف معين من الأصناف الأخرى 

الإيجابيات :
* خوارزمية تصنيف قوية جدا 
* يعمل بشكل ممتاز مع هامش فصل واضح 
* لا يعمل أي افتراضات قوية على البيانات 

السلبيات :
* لا يؤدي أداء جيد عندما يكون لدينا مجموعة بيانات كبيرة لأن وقت التدريب المطلوب عالي


Naïve Bayes
Supervised –Classification - التعلم بإشراف ،التصنيف

* تستند إلى نظرية بايز الإحصائية ، يفترض أن وجود ميزة معينة في صنف معين غير مرتبط بوجود أي ميزة أخرى
* من المعروف أن تتفوق على أساليب التصنيف المتطورة للغاية و من السهل بناء نموذج مفيد بشكل خاص لمجموعات البيانات الكبيرة جدا.
* و يطلق عليه هذا الإسم لأنه يتم تبسيط حساب الإحتمالات الخاصة بكل فرضية لجعل حسابها قابلا للتتبع.
* على سبيل المثال ، يمكن اعتبار الفاكهة تفاحة إذا كانت حمراء و مستديرة و حوالي 3 بوصات في القطر ، حتى إذا كانت هذه الخصائص تعتمد على بعضها البعض أو على وجود ميزات أخرى ، فإن المصنف "بايز" سيعتبر كل هذه الخصائص ، ليسهو بشكل مستقل في احتمال أن تكون هذه الفاكهة تفاحة .

الإيجابيات :
* إنه سهل الفهم و البناء نسبيا .
* سهلة التدريب .
* سريع
* ليست حساسة للميزات غير ذات الصلة 
* تؤدي بشكل جيد عندما تكون متغيرات المدخلات فئوية 

السلبيات :
* يفترض أن كل ميزة مستقلة ، و ليست الحالة دائما في البيانات 
* لا يعمل التوقع 
* يرتبط ببعض الفرضيات


التحليل الأساسي للعناصر –Principal Component Analysis 
Unsupervised –Dimensionality Reduction- التعلم بدون إشراف ، تقليل الابعاد
* التحليل الأساسي للعناصر هو خوارزمية لتقليل البعد ، يمكن استخدامها لتقليل مجموعة كبيرة من المتغيرات إلى مجموعة صغيرة تحتوي على معظم المعلومات في المجموعة الكبيرة .
* متى يستخدم ؟ إذا أردت تقليل عدد المتغيرات لكنك غير قادر على تحديد المتغيرات لإزالة بالكامل من الإعتبار ، التأكد من أن المتغيرات الخاصة بك مستقلة عن بعضها البعض .

الإيجابيات :
* من أهم خوارزميات تقليل الأبعاد 
* توفر خارطة طريق لكيفية تقليل مجموعة بيانات معقدة إلى بُعد أقل للكشف عن البنية المخفية أحيانا .
* يمكن أيضا استخدامها لضغط البيانات ، من خلال تقليل عدد الأبعاد.

السلبيات :
* يعتمد على الافتراضات الخطية 
*  يعتمد على التحول المتعامد
* هناك بعض التحديات في تفسير نتائج تحليل تخفيض البعد 


أقرب الجيران–K-Nearest Neighbors (KNN)
Supervised –Classification , Regression - التعلم بإشراف ، التوقع، التصنيف

* يمكن استخدامه لكل من مشاكل التصنيف و التوقع و مع ذلك فإنه يستخدم على نطاق أوسع في مشاكل التصنيف
* أقرب الجيران هو خوارزمية بسيطة تخزن كل الحالات المتاحة و تصنف حالات جديدة بأغلبية أصوات جيرانها . الحالة التي يتم تعيينها للفصل هي الأكثر شيوعا بين الجيران الأقرب إلى "ك" ( عدد أقرب الجيران) تقاس بواسطة وظيفة المسافة .
* يمكن رسم خرائط "KNN" بسهولة لحياتنا الحقيقية إذا كنت تريد التعرف على شخص و ليس لديك معلومات ،  فقد ترغب في معرفة أصدقائه المقربين و جيرانه و الدوائر التي ينتقل إليها و الوصول إلى معلوماته.

الإيجابيات :
* ثابت و قوي لضوضاء البيانات 
* فعال إذا كانت البيانات كبيرة
* ليس مطلوب القيام بأي افتراضات حول خصائص المفاهيم الذي يجب تعلمها

السلبيات :
* حساباته كثيفة 
* يعتمد الأداء على عدد الأبعاد 
* يجب معرفة العامل  K


K-Means
Unsupervised –Clustering - التعلم بدون إشراف ، التجميع

* يتبع الإجراء الخاص به ، طريقة بسيطة و سهلة لتصنيف مجموعة بيانات معينة من خلال عدد معين من المجموعات 
* يتمثل الهدف في العثور على مجموعات في البيانات ، مع عدد المجموعات الممثلة في المتغير "k" ،  تعمل الخوارزمية بشكل تكراري لتعيين كل نقطة بيانات إلى إحدى مجموعات "k" استنادا إلى الميزات التي يتم توفيرها ، يتم تجميع نقاط البيانات استنادا إلى التشابه في الميزات .
* لدينا مجموعات و كل مجموعة لديها النقطة الوسطى الخاصة بها ، مجموع مربع الإختلاف بين النقطة الوسطى و نقاط البيانات داخل مجموعة بشكل في مجموع القيمة المربعة لتلك المجموعة .

الإيجابيات :
* سريع و قوي و أسهل في الفهم 
* فعال نسبيا
* يعطي أفضل نتيجة عندما تكون مجموعة البيانات متميزة أو منفصلة بشكل جيد عن بعضها البعض .

السلبيات :
* اختيار عشوائي لمركز الكتلة لا يمكن أن يؤدي بنا إلى نتيجة مثمرة .
*فشل لمجموعة البيانات غير الخطية


الغابة العشوائية–Random Forest
Supervised –Classification , Regression - التعلم بإشراف ، التوقع، التصنيف

* تعتبر الغابة العشوائية بمثابة دواء وحل لكل مشاكل علم البيانات . هناك مقولة : " عندما لا يمكنك التفكير في أي خوازمية ،  استخدم الغابة العشوائية" . و هي مصطلح لمجموعة من أشجار القرار . 
* في الغابة العشوائية نقوم بتنمية أشجار متعددة بدلا من شجرة واحدة في نموذج ، لتصنيف كائن جديد بناءًا على السمات ، تعطي كل شجرة تصنيفا و نقول ان الشجرة "صوت" لتلك الفئة ، تختار الغابة التصنيف الذي يحتوي على أكبر عدد من الأصوات (على جميع الأشجار في الغابة) و في حالة الإنحدار ، يأخذ متوسط النواتج حسب الأشجار المختلفة .
* تعد طريقة تعلم آلية متعددة الاستخدامات لمهام التوقع و التصنيف ، كما أنها تتولى أساليب تقليل الأبعاد ، و تعامل القيم المفقودة ، و القيم الخارجية و الخطوات الأساسية الأخرى لاستكشاف البيانات  .

الإيجابيات :
* يمكن أن يحل كلا النوعين من المشاكل أي التصنيف و التوقع 
* قوة التعامل مع مجموعة كبيرة من البيانات ذات أبعاد أكبر .
* لديه طريقة فعالة لتقدير البيانات المفقودة ويحافظ على الدقة عند فقدان نسبة كبيرة من البيانات.

السلبيات :
* من المؤكد أنه يقوم بعمل جيد في التصنيف و لكن ليس بجودة مشكلة التوقع لأنه لا يعطي تنبؤات طبيعية مستمرة و دقيقة .
* يمكن أن تبدو الغابة العشوائية مثل نهج الصندوق الأسود لمصممي النماذج الاحصائية ( لديك القليل من التحكم في ما يفعله النموذج) .

تعديل المشاركة
ليست هناك تعليقات
إرسال تعليق

Back to top button