Hadoop هو إطار برمجي مفتوح المصدر يخزن كميات هائلة من البيانات. يقوم بتشغيل التطبيقات على مجموعات من الأجهزة السلعية. يمكن لـ Hadoop تسليم وظائف أو مهام متزامنة غير محدودة تقريبًا. يوفر Hadoop أيضًا قدرًا هائلاً من مساحة التخزين لأي بيانات.
تتمتع البيانات الضخمة و Hadoop بقوة معالجة ممتازة. خاصة في صناعة الطاقة، تُستخدم التحليلات المدعومة من Hadoop في الصيانة التنبؤية. فهو يغذي البيانات في برامج البيانات الضخمة، مع مدخلات من إنترنت الأشياء (IoT) . يتزايد الطلب على خبراء Hadoop بشكل مطرد. السؤال الشائع الذي يطرح نفسه هو كيفية الاستعداد لمقابلة Hadoop أو مقابلة مسؤول Hadoop. لذا، إنها فكرة رائعة أن تصبح خبيراً في Hadoop. يحصل خبراء Hadoop على راتب مجزٍ في سوق عمل البيانات الضخمة.
تطرح لجنة المقابلة على المرشحين الذين يتقدمون لمطوري Hadoop أو اختبار Hadoop بعض الأسئلة العامة بالإضافة إلى أسئلة قائمة على سيناريو Hadoop للتحقق من المعرفة. لذا، تساعد قائمة شاملة بالأسئلة المحتملة وإجاباتها المتقدمين المحتملين على الاستعداد لمثل هذه المقابلات مع توضيح الفرق بين البيانات الضخمة وعلوم البيانات. سننظر أيضًا في أسئلة من نظام Hadoop البيئي بأكمله، والذي يتضمن HDFS و MapReduce و YARN و YARN و Hive و Pig و HBase و Sqoop.
تُعرف مجموعة من البيانات الضخمة والمعقدة باسم البيانات الضخمة. وهي تشكل صعوبة في معالجة البيانات التقليدية. وفرت البيانات الضخمة فرصة مناسبة للشركات. فهي توفر للشركات فرصة مناسبة للقدرات المتقدمة في مجال صناعة الأعمال.
تساعد البيانات الضخمة الشركات على استخلاص القيمة بنجاح من بياناتها. وفيما يلي خمسة V’s للبيانات:
أباتشي هادوب هو إطار عمل يوفر أدوات وخدمات مختلفة لمعالجة البيانات الضخمة. تساعد الأدوات والخدمات أيضًا الأشخاص على تخزين البيانات الضخمة.
يحتوي ApachenHadoop على مكونين رئيسيين:
يساعد Hadoop الأشخاص على تحليل البيانات الضخمة. يمكن للخبراء اتخاذ بعض القرارات التجارية باستخدام البيانات الضخمة من خلال Hadoop. لا تسمح الأنظمة التقليدية للأشخاص باتخاذ مثل هذه القرارات الفعالة باستخدام البيانات الضخمة.
تُعرف وحدة التخزين في Hadoop باسم HDFS. وهو يرمز إلى نظام الملفات الموزعة في Hadoop، وهو يتبع طوبولوجيا السيد والعبد. يقوم بتخزين أنواع مختلفة من البيانات في بيئة موزعة ككتل.
مكونات HDFS هي كما يلي:-
يُعرف إطار عمل معالجة Hadoop باسم Yarn. وهو يرمز إلى مفاوض مورد آخر. يدير الموارد.
مكونان من مكونات Yarn هما كما يلي:- –
NameNode وعقدة البيانات هما مكونان من مكونات HDFS.
NameNodenيحافظ على معلومات البيانات الوصفية لكتل البيانات المخزنة في HDFS. يمكن وصفها بأنها العقدة الرئيسية في البيئة الموزعة. وهي تدير جميع عقد البيانات.
عقد البياناتهي المسؤولة عن تخزين البيانات في HDFS. هم NODES الرقيق.
ResourceManager و NodeManager هما مكونان من مكونات Yarn. يتم تثبيت مدير العقدة في جميع عقد البيانات. وهو مسؤول عن تنفيذ جميع المهام على كل عقدة بيانات.
يتلقى مديرو الموارد طلبات المعالجة. ثم ينقلون أجزاء الطلبات بعد ذلك إلى مديري العُقد المقابلة، حيث تحدث المعالجة الفعلية.
تتم كتابة Hadoop بلغة جافا.
يستخدم العديد من مطوري البرمجة لغة Python بسبب مكتباتها الداعمة لمهام تحليل البيانات. بايثون هي لغة برمجة مرنة تحتوي على العديد من المكتبات والموارد. تحتاج العديد من شركات البرمجيات إلى أن يكون موظفوها على دراية جيدة بلغة بايثون. تساعد لغة البرمجة هذه في إنتاج وقراءة الأكواد. تستخدم العديد من الشركات لغة Python مع Hadoop بالطرق التالية:
توصي أمازون بمنتجات مختلفة لمستخدميها، بناءً على سجل الشراء السابق.nتم استخدام لغة بايثون لبناء محرك التعلم الآلي في أمازون. وهو يتفاعل مع نظام Hadoop البيئي لتقديم أفضل نظام توصية بالمنتجات بأفضل جودة.
لقد اكتسب فيسبوك شعبية غير مسبوقة في مجال وسائل التواصل الاجتماعي. إنه يمكّنnHDFS من استخراج بيانات غير منظمة واسعة النطاق قائمة على الصور. ثم يستخدم لغة Python كلغة خلفية لتطبيقات معالجة الصور. كما يستخدم فيسبوك أيضًا واجهة برمجة تطبيقات البث المباشر لـnHadoop لتحرير البيانات والوصول إليها.
يمكن تشغيل Hadoop في ثلاثة أوضاع، وهي كالتالي:
يحتفظ خادم عقدة الاسم بنوعين من البيانات الوصفية. وهما كالتالي:
فيما يلي أهم الأسئلة الشائعة المتعلقة بالمقابلة الشخصية
“عقدة الاسم” هي نقطة الفشل الوحيدة في Hadoop 1.x. توجد عقد الاسم النشطة والسلبية في Hadoop 2.x
يستخدم Hadoop الأجهزة السلعية. يؤدي إلى تعطل “عقدة البيانات” بشكل منتظم في مجموعة Hadoop.
حجم البيانات يتزايد باستمرار، والإطار هو سهولة التوسع، وفقًا لذلك. لذا، فإن مسؤول Hadoop لديه واجب حاسم لإضافة وإزالة عقد البيانات من مجموعة Hadoop.
في بعض الأحيان، يبدو أن العقدة تنفذ مهمة ما ببطء. في هذه الحالة، قد تقوم العقدة الرئيسية بتنفيذ مثيل آخر من نفس المهمة إلى عقدة أخرى بشكل متكرر. في هذه الحالة، يتم قبول المهمة التي تنتهي أولاً. ويتم قتل الأخرى. هذه العملية هي “التنفيذ التخميني” في Hadoop.
يقوم “قارئ السجلات” بتحميل البيانات من مصدرها. ثم يقوم بتحويل البيانات إلى أزواج مناسبة بحيث يمكن لمهمة “Mapper” قراءتها.
من السهل كتابة مُقسِّم مخصص لمهمة Hadoop، باتباع الخطوات المذكورة أدناه:
بعض الشركات مثل ياهو وأمازون ونيتفليكس وتويتر تستخدم Hadoop.
يعمل إطار عمل Hadoop على مكونين على النحو التالي-
يحتوي توزيع Hadoop على واجهة برمجة تطبيقات عامة. تكتب هذه الواجهة مهام الخرائط والتقليل بلغات البرمجة مثل Python و Ruby. ومن المعروف باسم تدفق Hadoop.
تنسيقات الإدخال الأكثر شيوعًا لـ Hadoop هي كما يلي:-
هناك عدة عوامل تختار الملف الذي يستخدمه الأشخاص لتخزين ومعالجة البيانات في Apache Hadoop. العوامل هي كما يلي:
تُعرف الواجهة بين مجموعة Hadoop والشبكة الخارجية باسم عقدة الحافة. يتم استخدامه لتشغيل شبكة العميل وأدوات إدارة العميل.
تشير البيانات الجانبية إلى البيانات الإضافية للقراءة فقط التي تحتاجها مهمة Hadoop لمعالجة مجموعة البيانات الأصلية. يحتوي Hadoop على تقنيتين لتوزيع البيانات الجانبية:
معالجات مزدوجة مع ذاكرة وصول عشوائي بسعة 4 جيجابايت أو ذاكرة وصول عشوائي بسعة 8 جيجابايت، والتي تستخدم ذاكرة ECC، وهي تشكل أفضل تكوين للأجهزة. ذاكرة ECC هي الأفضل لتشغيل Hadoop. وقد عانى المستخدمون الذين استخدموا ذواكر غير ECC من أخطاء مختلفة في المجموع الاختباري. يعد تكوين الأجهزة ضروريًا أيضًا في إدارة متطلبات سير العمل. فهي عرضة للتغيير المفاجئ.
مزايا استخدام Hadoop هي كما يلي:
الميزات المختلفة لـ Hadoop هي كما يلي:
هناك بعض الاختلافات الأساسية بين Hoop و RDBMS. وهي كالتالي:
لدى Hadoop بعض العيوب. وهي كالتالي:
هناك بعض الاختلافات الأساسية بين Hadoop 2 و Hadoop 3. وهي كالتالي:
يستخدم Hadoop نظام Kerberos لتحقيق الأمان. يحتاج العميل إلى اتخاذ ثلاث خطوات للوصول إلى الخدمة أثناء استخدام Kerberos. في كل خطوة من هذه الخطوات، يتم تبادل رسالة مع الخادم. الخطوات هي كما يلي:
في Hadoop، الإنتاجية هي مقدار العمل المنجز خلال وقت محدد.
في Hadoop، يساعد الأمر .jbs الأشخاص على التحقق مما إذا كان Hadoop قيد التشغيل أم لا.
يرمز Hdfs إلى نظام الملفات الموزعة لـ Hadoop. وهو نظام التخزين الأدنى لـ Hadoop.
يقوم بتخزين الملفات الكبيرة التي تعمل على مجموعة من الأجهزة السلعية. يتبع HDFS مبدأ الملفات الكبيرة في عدد أقل، بدلاً من العديد من الملفات الصغيرة.
لا يمكن للكتاب المتعددين الكتابة في ملف HDFS في وقت واحد. ويُعرف النموذج الذي يتبعه Apache Hadoop بنموذج الكاتب الواحد والقارئ المتعدد. تمنح NameNode عقدة الاسم عقدة إيجار للعميل الذي يفتح ملفًا للكتابة. إذا أراد عميل آخر الكتابة في هذا الملف، فإنه يطلب الإذن من NameNode لعملية الكتابة. بعد ذلك، تتحقق NameNode مما إذا كان الوصول للكتابة قد تم منحه لشخص آخر في وقت سابق. إذا كان الإذن قد تم منحه لشخص آخر في وقت سابق، سترفض NameNode طلب الكتابة الخاص بالعميل الثاني.
موقع مستمر على القرص الصلب، يعرف باسم كتلة تخزين البيانات. يخزن نظام الملفات بشكل عام البيانات كمجموعة من الكتل. يخزن HDFS كل ملف ككتلة، ويوزعها عبر مجموعة Hadoop العنقودية. الحجم الافتراضي لكتلة البيانات هو 128 ميجابايت في HDFS. يمكننا تكوينه حسب متطلباتنا. الحجم الافتراضي لكل كتلة بيانات هو 1258 ميجابايت، بشكل افتراضي، لتقليل حجم القرص. لا يمكن أن يكون حجم الكتلة كبيرًا جدًا بحيث ينتظر النظام وقتًا طويلاً حتى تنتهي الوحدة الأخيرة من البيانات من المعالجة.
لدى Hadoop طريقة رائعة للفهرسة. في البداية، يقوم إطار عمل Hadoop بتخزين البيانات وفقًا لحجم الكتلة. بعد ذلك، يستمر HDFS في تخزين الجزء الأخير من البيانات. يقول أين سيكون الجزء التالي من البيانات.
الخلاصة: Hadoop في طريقه ليكون مستقبل التكنولوجيا. ستساعد أسئلة وأجوبة مقابلة Hadoop التي تمت مناقشتها أعلاه المرشح على مواجهة لجنة المقابلة بثقة. ومع ذلك، توفر هذه الأسئلة مجرد نظرة عامة أساسية للمقابلة. يحتاج المرشحون إلى أن يكون لديهم مفهوم واضح ومعرفة متعمقة بـ Hadoop.
كان علينا قضاء الكثير من الساعات في البحث والتداول حول أفضل الإجابات الممكنة على أسئلة المقابلة هذه. نود أن ندعو الأشخاص من حديثي التخرج في مجال تكنولوجيا المعلومات وذوي الخبرة لفهم الأسئلة الشائعة للمقابلات للتفوق في الأداء.
سبوتو هي مزود معترف به عالميًا لمجموعة واسعة من الخدمات الاحترافية المصممة لتلبية الاحتياجات المتنوعة للمؤسسات في جميع أنحاء العالم. نحن متخصصون في التدريب التقني والتجاري، وتطوير تكنولوجيا المعلومات وحلول البرمجيات، وخدمات اللغات الأجنبية، والتعلم الرقمي، وتوفير الموارد والتوظيف، والاستشارات. يتجلى التزامنا الثابت بالتميز من خلال شهادات الأيزو 9001 و27001 وCMMIDEV/3، التي تؤكد على معاييرنا الاستثنائية. وبفضل سجلنا الحافل بالنجاح الذي يمتد لأكثر من عقدين من الزمن، فقد قدمنا خدماتنا بفعالية لأكثر من 4000 مؤسسة في جميع أنحاء العالم.
