ماذا يقصد بتعدين البيانات ؟

تعدين البيانات

تعريف

 يشير مصطلح Data Mining  إلى عملية تحليل البيانات من منظورات مختلفة و تحويلها إلى معلومات مفيدة ،  فهي تمكن من إنشاء علاقات بين البيانات أو  فهم الأنماط الموجودة مسبقا. يمكن للشركات إستخدام هذه المعلومات   لزيادة الإيرادات أو تقليل التكاليف. كما يمكن إستعمالها  لفهم قاعدة العملاء بشكل جيد للتمكن من  وضع استراتيجيات تسويقية أفضل.

website builder

ما هو تعدين البيانات ؟

يتضمن  تعدين البيانات  مجموعة كاملة من الأدوات التي تسهل عملية  استكشاف و تحليل البيانات المتضمنة في قاعدة بيانات من نوع  Data Warehouse  أو  DataMart. تمكن التقنيات المستخدمة مع أدوات التحليل والتنقيب من استخراج معلومات مهمة من كميات كبيرة من البيانات.
باختصار ، تستطيع أداة التنقيب عن البيانات إيجاد النمادج الأصلية و الارتباطات غير الرسمية بين البيانات.كما تساعد على فهم العلاقات  بين الظواهر الغامضة و المبهمة بشكل أفضل و توقع توحهاتها التي لا يمكن تمييزها بعد.
يعتمد تعدين البيانات على خوارزميات معقدة  لتقسيم البيانات و تقييم الاحتمالات المستقبلية. يعرف  تعدين بيانات أيضا باسم اكتشاف المعرفة في البيانات.

في ما نستعمل تعدين البيانات ؟

بخلاف الطرق التقليدية للتحليل الإحصائي تستطيع هذه الأداة معالجة كميات كبيرة من البيانات جيث يتم إعتمادها  بشكل رئيسي من قبل الشركات التي تركز على المستهلك في قطاعات التسويق ،  التمويل ،  الاتصالات ، أو التنقيب عن البيانات. تستخدم تقنية تعدين البيانات في مجالات مختلفة من البحث ، كالرياضيات ، علم التحكم الآلي و علم الوراثة. يهدف تعدين الويب  المستخدم في مجال إدارة علاقات العملاء إلى تحديد أنماط سلوك المستخدم ضمن كميات هائلة من البيانات التي يجمعها موقع الويب.

أنواع التقنيات

تختلف التقنيات المستخدمة  وفقا لطبيعة البيانات و نوع الدراسة المراد  القيام بها فنجد :

  – الطرق التي تستخدم تقنيات التصنيف و التقسيم .
  – الأساليب  التي تعتمد مبادئ شجرة القرار  و التي تشبه إلى حد ما تقنيات التصنيف .
  – طرق مبنية على مبادئ و قواعد الجمع و القياس  تهتم بالبحث عن أنماط يرتبط فيها حدث بحدث آخر.
  – طرق تستخدم القدرة على التعلم للشبكات العصبية و أخرى تعتمد الخوارزميات الجينية لدراسة التطور السكاني .

كيف تتم عملية تعدين البيانات ؟

تمر عملية تعدين البيانات من 5 مراحل أو فترات زمنية كبرى . تقوم الشركات أولا بتجميع البيانات وتحميلها في “مستودعات البيانات”. بعد ذلك تعمل على تخزينها وإدارتها  على الخوادم المادية أو على السحابة. يقوم محللو الأعمال, فرق الإدارة و متخصصو تكنولوجيا المعلومات بالوصول إلى هذه البيانات وتحديد كيفية تنظيمها. ثم يعمل برنامج التطبيق بفرز البيانات استنادا إلى النتائج المحصلة و تقديمها بطريقة  تسهل مشاركتها .

 1- تحديد المشكل

ما هو الغرض من التحليل ، ما الذي نبحث عنه؟ ما هي الأهداف؟ كيف نترجم المشكل إلى سؤال يمكن استخدامه كموضوع مسح لأداة التحليل ؟ هي كلها أسئلة يجب طرحها و الإجابة عنها  وفقا للبيانات المتاحة.

  2- جمع البيانات

تعتبر هذه المرحلة مفصلية  و هامة في نجاح عملية التعدين تتطلب  أكبر قدر من العناية حيث  يتم تحليل البيانات القابلة للاستخدام فقط  أي البيانات “النظيفة” و الموحدة لذا سيتم إستبعاد تلك  المشكوك في جودتها  .يجب أن تكون كمية البيانات كافية لتجنب تشويه النتائج.

 3-إنشاء نموذج التحليل

لا تتردد في التحقق من اختياراتك التحليلية على عدة مجموعات اختبار عن طريق تغيير العينات. قد يقودنا التقييم الأولي إلى تكرار النقاط 1 أو 2.

 4- دراسة النتائج

في هده المرحلة سيتم استغلال النتائج . وبغية تحسين التحليل يمكن  تكرار الخطوات 1 أو 2 أو 3 إذا ثبت أن النتائج غير مرضية.

5- الترسيم و النشر

يتم إضفاء الطابع الرسمي على النتائج ليتم نشرها فهي لن تكون مفيدة إلا بعد أن تصبح معرفة مشتركة. فهنا تكمن ذروة العملية و تتجلى كذلك الصعوبة  في التفسير و التعميم.

ما هي المتطلبات التكنولوجيا لعملية تعدين البيانات ؟

تتوفر تطبيقات تعدين  البيانات في أحجام مختلفة تناسب حاجيات السوق فنجد ما يمكن تنصيبه  على أجهزة الحاسوب المركزي , الخادم أو الشخصي الشخصي. تتراوح أسعار الأنظمة من آلاف الدولارات إلى مليون دولار لكل تيرابايت حسب حجم التطبيق .

تعتبر تقنيات تخزين قواعد البيانات العلائقية وإدارتها ملائمة للعديد من تطبيقات تعدين البيانات التي يقل حجمها عن 50 غيغابايت. ومع ذلك ، فإن هذه البنية التحتية تحتاج إلى التوسع بشكل كبير لدعمتطبيقات أكبر. أضاف بعض الموردين المزيد من قدرات الفهرسة لزيادة أداء الاستعلام.فيما يستخدم آخرون البنى الجديدة للأجهزة مثل Massiely Parallel Processors (MPP) لتحسين وقت معالجة الاستعلام, على سبيل المثال ، تقوم أنظمة MPP الخاصة بشركة NCR بربط مئات من المعالجات Pentium لتحقيق مستويات أداء أعلى تناقس أفضل أجهزة الكمبيوتر العملاقة.

قد يعجبك أيضا ....

1 Response

  1. 6 نوفمبر 2018

    […] استخدام  نظام ذكاء السرب في مجال تعدين  البيانات. حيث يمكن أن يكون بديلا مثيرا للاهتمام لتحليل البيانات […]

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

هذا الموقع يستخدم Akismet للحدّ من التعليقات المزعجة والغير مرغوبة. تعرّف على كيفية معالجة بيانات تعليقك.