تعدين البيانات
تعريف
يشير مصطلح Data Mining إلى عملية تحليل البيانات من منظورات مختلفة و تحويلها إلى معلومات مفيدة ، فهي تمكن من إنشاء علاقات بين البيانات أو فهم الأنماط الموجودة مسبقا. يمكن للشركات إستخدام هذه المعلومات لزيادة الإيرادات أو تقليل التكاليف. كما يمكن إستعمالها لفهم قاعدة العملاء بشكل جيد للتمكن من وضع استراتيجيات تسويقية أفضل.
ما هو تعدين البيانات ؟
في ما نستعمل تعدين البيانات ؟
بخلاف الطرق التقليدية للتحليل الإحصائي تستطيع هذه الأداة معالجة كميات كبيرة من البيانات جيث يتم إعتمادها بشكل رئيسي من قبل الشركات التي تركز على المستهلك في قطاعات التسويق ، التمويل ، الاتصالات ، أو التنقيب عن البيانات. تستخدم تقنية تعدين البيانات في مجالات مختلفة من البحث ، كالرياضيات ، علم التحكم الآلي و علم الوراثة. يهدف تعدين الويب المستخدم في مجال إدارة علاقات العملاء إلى تحديد أنماط سلوك المستخدم ضمن كميات هائلة من البيانات التي يجمعها موقع الويب.
أنواع التقنيات
تختلف التقنيات المستخدمة وفقا لطبيعة البيانات و نوع الدراسة المراد القيام بها فنجد :
كيف تتم عملية تعدين البيانات ؟
تمر عملية تعدين البيانات من 5 مراحل أو فترات زمنية كبرى . تقوم الشركات أولا بتجميع البيانات وتحميلها في “مستودعات البيانات”. بعد ذلك تعمل على تخزينها وإدارتها على الخوادم المادية أو على السحابة. يقوم محللو الأعمال, فرق الإدارة و متخصصو تكنولوجيا المعلومات بالوصول إلى هذه البيانات وتحديد كيفية تنظيمها. ثم يعمل برنامج التطبيق بفرز البيانات استنادا إلى النتائج المحصلة و تقديمها بطريقة تسهل مشاركتها .
1- تحديد المشكل
2- جمع البيانات
تعتبر هذه المرحلة مفصلية و هامة في نجاح عملية التعدين تتطلب أكبر قدر من العناية حيث يتم تحليل البيانات القابلة للاستخدام فقط أي البيانات “النظيفة” و الموحدة لذا سيتم إستبعاد تلك المشكوك في جودتها .يجب أن تكون كمية البيانات كافية لتجنب تشويه النتائج.
3-إنشاء نموذج التحليل
لا تتردد في التحقق من اختياراتك التحليلية على عدة مجموعات اختبار عن طريق تغيير العينات. قد يقودنا التقييم الأولي إلى تكرار النقاط 1 أو 2.
4- دراسة النتائج
5- الترسيم و النشر
ما هي المتطلبات التكنولوجيا لعملية تعدين البيانات ؟
تتوفر تطبيقات تعدين البيانات في أحجام مختلفة تناسب حاجيات السوق فنجد ما يمكن تنصيبه على أجهزة الحاسوب المركزي , الخادم أو الشخصي الشخصي. تتراوح أسعار الأنظمة من آلاف الدولارات إلى مليون دولار لكل تيرابايت حسب حجم التطبيق .
تعتبر تقنيات تخزين قواعد البيانات العلائقية وإدارتها ملائمة للعديد من تطبيقات تعدين البيانات التي يقل حجمها عن 50 غيغابايت. ومع ذلك ، فإن هذه البنية التحتية تحتاج إلى التوسع بشكل كبير لدعمتطبيقات أكبر. أضاف بعض الموردين المزيد من قدرات الفهرسة لزيادة أداء الاستعلام.فيما يستخدم آخرون البنى الجديدة للأجهزة مثل Massiely Parallel Processors (MPP) لتحسين وقت معالجة الاستعلام, على سبيل المثال ، تقوم أنظمة MPP الخاصة بشركة NCR بربط مئات من المعالجات Pentium لتحقيق مستويات أداء أعلى تناقس أفضل أجهزة الكمبيوتر العملاقة.