أصبحت البيانات الضخمة كلمة طنانة جديدة في صناعة تكنولوجيا المعلومات. يتحدث الجميع عن ذلك ويستخدمونه بشكل متكرر لإثارة إعجاب الآخرين ، حتى لو كانوا هم أنفسهم لا يعرفون حقًا ما يعنيه. غالبًا ما يتم استخدامه خارج السياق وأكثر كوسيلة للتحايل التسويقي. تهدف هذه المقالة إلى شرح ماهية البيانات الضخمة حقًا وكيف ستكون مفيدة في حل المشكلات.
يمكن أن تعطينا حسابات الفيزياء والرياضيات المسافة الدقيقة من الساحل الشرقي للولايات المتحدة إلى الساحل الغربي ، بدقة تصل إلى حوالي ياردة واحدة. هذا إنجاز هائل وقد تم تطبيقه على تقنيات مختلفة في حياتنا اليومية. لكن التحدي يأتي عندما يكون لديك بيانات غير ثابتة ، والتي تتغير وتتغير باستمرار بمعدل وأحجام ضخمة لتحديدها في الوقت الفعلي. الطريقة الوحيدة التي يمكننا بها معالجة هذه البيانات هي باستخدام أجهزة الكمبيوتر.
يقسم علماء البيانات في شركة IBM البيانات الضخمة إلى أربعة أبعاد: الحجم والتنوع والسرعة والصدق. لكن هناك العديد من الجوانب الأخرى. يمكن وصف البيانات الضخمة بالخصائص التالية:
الحجم هو حجم البيانات التي تحدد قيمة وإمكانات البيانات قيد الدراسة وما إذا كان يمكن اعتبارها بالفعل بيانات كبيرة أم لا. التنوع يعني أن الفئة التي تنتمي إليها البيانات هي أيضًا حقيقة أساسية للغاية يجب أن يعرفها محللو البيانات. يساعد هذا الأشخاص ، الذين يقومون بتحليل البيانات عن كثب والمرتبطين بها ، على استخدام البيانات بشكل فعال لصالحهم وبالتالي الحفاظ على أهمية البيانات. تشير السرعة إلى مدى سرعة إنشاء البيانات ومعالجتها لتكون مفيدة. يمكن أن يمثل تقلب البيانات أيضًا مشكلة للمحللين. الدقة هي جودة البيانات التي يتم التقاطها. يعتمد التحليل الدقيق على صحة بيانات المصدر.
التشبيهات
قدم مقال على مدونة Tibco تشبيهًا بسيطًا جدًا لفهم ماهية البيانات الضخمة حقًا. تقول مدونتهم أن:
"أحد الأمثلة على تحليل البيانات الضخمة هو مقارنة بياناتك ببحيرة كبيرة ... إن محاولة الحصول على حجم دقيق لهذه البحيرة وصولاً إلى آخر جالون أو أونصة أمر مستحيل عمليًا ... الآن دعنا نفترض أنك قمت ببناء أكبر آلة عد المياه ... تقوم بإطعام كل المياه الموجودة في البحيرة من خلال آلة عد المياه الكبيرة الخاصة بك ، وتخبرك بعدد أوقية المياه في البحيرة ... لتلك النقطة الزمنية ".
تم تقديم تشبيه مرئي أفضل من قبل Paul Lewis من شركة Hitachi Data Systems. غالبًا ما يشرح عن البيانات الضخمة من خلال عرض صورة كاريكاتورية مليئة بمئات الأشخاص الذين يقومون بأشياء مختلفة في الصورة ، ويبدو أنهم مشغولون. هو يوضح:
"تحتاج إلى العثور على الشخص الذي يحمل حقيبة المال (القيمة) ... ولكن هناك الكثير من الأشخاص (الحجم) ، كلهم يمشون بسرعات مختلفة يركضون إلى العمل (السرعة) ، من جميع مناحي الحياة (متنوعة) ، بعضهم المحتالون (صدق). "
الأهمية والفوائد
أحد الأسباب الرئيسية وراء حاجتنا إلى البيانات الضخمة هو التنبؤ والتحليل. واحدة من أفضل الأمثلة التي يمكن رؤية البيانات الضخمة فيها أثناء العمل هي تجربة مصادم الهادرونات الكبير ، حيث يقوم حوالي 150 مليون مستشعر بإيصال البيانات 40 مليون مرة في الثانية. بعد التصفية والامتناع عن تسجيل أكثر من 99.999٪ من هذه التدفقات ، يوجد 100 تصادم مثير للاهتمام في الثانية. مثال آخر مهم هو Facebook ، الذي يتعامل مع أكثر من 50 مليار صورة مستخدم.
الرعاية الصحية هي مجال آخر يمكن أن تلعب فيه البيانات الضخمة دورًا مهمًا. أحد الأمثلة المدهشة هو Google Flu Trends ، الذي يحلل بيانات البحث من مواقع مختلفة ويستخدم تحليل البيانات لتحديد أنماط أوبئة الأنفلونزا والأوبئة المتوطنة في جميع أنحاء العالم. على الرغم من أن هذه البيانات ليست دقيقة بالضرورة أو قد تحتوي على الكثير من الإيجابيات الخاطئة ، إلا أنها تسلط الضوء على إمكانات ما يمكن أن تظهره لك هذه البيانات.
من المزايا الرئيسية للبيانات الضخمة أنه لا يوجد تنسيق محدد يتم تخزينها به. بعبارات فجة ، إنه تفريغ خام للبيانات ، أي أنه غير منظم. يستخدم النظام خوارزميات معقدة لتصنيف ومعالجة هذه البيانات ، مما يجعلها مميزة للغاية.