Azure هو الخيار الأفضل للخدمات السحابية في مجال تكنولوجيا المعلومات. إن معرفة كيفية استخدام Azure Data Factory (ADF) هي مهارة قيّمة. يساعدك الاستعداد للمقابلة باستخدام أسئلة مقابلة Azure Data Factory على التميز. فهو يوضح لك فهمك لخطوط أنابيب البيانات وخدمات ADF وأدوات مثل Azure Databricks.
في هذه المقالة، نغطي في هذه المقالة أسئلة المقابلة الرئيسية لمصنع بيانات Azure Data Factory. سوف تتعرف على مفاهيم ADF، والأمان، والأدوات، والأمثلة الواقعية. هذا الإعداد يمكن أن يعزز ثقتك ونجاحك!
هل تريد أن تصبح مرشحًا مثاليًا للحصول على شهادة Azure؟ يساعدك SPOTO على إتقان هندسة بيانات Azure، وطوب البيانات، والتحليلات المتقدمة. استعد بأفضل الاستراتيجيات وتعامل مع الخوارزميات المعقدة بثقة لتنجح في محاولتك الأولى!
جدول المحتويات
ما أهمية مصنع بيانات Azure Data Factory؟
أسئلة وأجوبة مقابلة مصنع بيانات Azure Data Factory
السؤال رقم 01: ما هو الغرض الأساسي من مصنع بيانات Azure؟
السؤال رقم 02: ما هي المكونات الرئيسية لمصنع بيانات Azure، وما هي أدوارها؟
السؤال رقم 03: ما هو تدفق البيانات في مصنع بيانات Azure، وما هي مزاياه؟
السؤال رقم 04: كيف يمكنك استخدام Git للتحكم في الإصدار في Azure Data Factory؟
السؤال رقم 05: ما هي آخر التحديثات والتحسينات في Azure Data Factory لمعالجة البيانات وتكاملها؟
السؤال رقم 06: ما هو Azure Data Factory؟
السؤال رقم 07: لماذا نحتاج إلى Azure Data Factory؟
السؤال رقم 08: ما هي المكونات الرئيسية لمصنع بيانات Azure؟
السؤال رقم 09: ما هو وقت تشغيل التكامل في مصنع بيانات Azure؟
السؤال رقم 10: كم عدد أنواع وقت تشغيل التكامل في مصنع بيانات Azure؟
السؤال رقم 11: ما الفرق بين مجموعة البيانات والخدمة المرتبطة في مصنع بيانات أزور؟
السؤال رقم 12: ما هي أنواع المشغلات التي يدعمها Azure Data Factory؟
السؤال رقم 13: ما هو خط الأنابيب في Azure Data Factory؟
السؤال رقم 14: ما الفرق بين Azure Data Lake و Azure Data Warehouse؟
السؤال رقم 15: كيف يمكنك مراقبة خطوط الأنابيب في Azure Data Factory؟
السؤال رقم 16: ما هي الخدمة المرتبطة في Azure Data Factory؟
السؤال رقم 17: ما هو المطلوب لتنفيذ حزمة SSIS في مصنع البيانات؟
السؤال رقم 18: هل يمكن أن يتكامل مصنع بيانات Azure Data Factory مع بيانات التعلم الآلي؟
السؤال رقم 19: ما هو الغرض من نشاط النسخ في مصنع بيانات أزور؟
السؤال رقم 20: ما هو تدفق البيانات في مصنع بيانات Azure؟
السؤال رقم 21: كيف يمكنك التعامل مع القيم الفارغة في مخرجات النشاط؟
السؤال رقم 22: ما هو نشاط ForEach في مصنع بيانات أزور؟
السؤال رقم 23: ما هو نشاط الحصول على البيانات الوصفية في مصنع بيانات أزور؟
السؤال رقم 24: كيف يمكنك تمرير المعلمات بين الأنشطة في خط أنابيب؟
السؤال رقم 25: ما هي قاعدة بيانات Azure SQL في Azure، وكيف يمكن دمجها مع مصنع البيانات؟
السؤال رقم 26: ما هي تحليلات بحيرة بيانات Azure Data Lake Analytics؟
السؤال رقم 27: كيف يتعامل Azure Data Factory مع أمان البيانات؟
السؤال رقم 28: ما الفرق بين Azure Data Factory V1 و V2؟
السؤال رقم 29: كيف يمكنك جدولة خط أنابيب في Azure Data Factory؟
السؤال رقم 30: ما هو الغرض من تعيين تدفقات البيانات في Azure Data Factory؟
السؤال رقم 31: ما هو الفرق بين تخطيط تدفق البيانات وتخطيط تدفق البيانات في مصنع بيانات Azure؟
السؤال رقم 32: كيف يمكنك التعامل مع المعلومات الحساسة في Azure Data Factory؟
السؤال رقم 33: ما هو الغرض من وقت تشغيل التكامل المستضاف ذاتيًا في مصنع بيانات Azure؟
السؤال رقم 34: كيف يتعامل مصنع بيانات Azure Data Factory مع نسب البيانات؟
السؤال رقم 35: ما الفرق بين نشاط البحث ونشاط الحصول على البيانات الوصفية؟
السؤال رقم 36: كيف يمكنك تنفيذ المحتوى الديناميكي في خطوط أنابيب مصنع بيانات Azure Data Factory؟
السؤال رقم 37: ما هو الغرض من نشاط التبديل في Azure Data Factory؟
السؤال رقم 38: كيف يتعامل مصنع بيانات Azure Data Factory مع الإصدار والتحكم في المصدر؟
السؤال رقم 39: ما الفرق بين نشاط النسخ ونشاط تدفق البيانات؟
السؤال رقم 40: كيف يمكنك تحسين أداء أنشطة النسخ في Azure Data Factory؟
السؤال رقم 41: ما هي أوقات تشغيل التكامل في Azure Data Factory، وكيف يمكنك تحديد أيهما تستخدم؟
السؤال رقم 42: كيف يمكنك تنفيذ عمليات تحميل البيانات الإضافية في ADF؟
السؤال رقم 43: اشرح كيف تتعامل مع انجراف المخطط في ADF.
السؤال رقم 44: كيف يمكنك تحسين الأداء في خطوط أنابيب ADF؟
السؤال رقم 45: كيف يمكنك مراقبة وتصحيح أخطاء خطوط الأنابيب في ADF؟
السؤال رقم 46: ما هي الخدمات المرتبطة في ADF، وكيف تختلف عن مجموعات البيانات؟
السؤال رقم 47:كيف يمكنك تأمين المعلومات الحساسة في ADF؟
السؤال رقم 48:هل يمكنك شرح مفهوم المشغلات في ADF؟
السؤال رقم 49: كيف يتعامل ADF مع سيناريوهات الفشل في خطوط الأنابيب؟
السؤال رقم 50: ما هو دور نشاط الإجراءات المخزنة في ADF؟
السؤال رقم 51: كيف يمكنك تنفيذ CI/CD مع ADF؟
السؤال رقم 52: اشرح استراتيجيات التقسيم في ADF.
السؤال رقم 53: كيف يتكامل ADF مع Databricks؟
السؤال رقم 54: ما الفرق بين ETL و ELT في ADF؟
السؤال رقم 55: كيف تتعامل مع خطوط الأنابيب الديناميكية في ADF؟
السؤال رقم 56: ما هو PolyBase، وكيف يعمل مع ADF؟
السؤال رقم 57: ما هي أنشطة البحث والتصفية المستخدمة؟
السؤال رقم 58: كيف تدير التبعيات بين الأنشطة في خط الأنابيب؟
السؤال رقم 59: ما هو الغرض من نشاط الويب في ADF؟
السؤال رقم 60: كيف يعمل التحكم في الإصدار في ADF؟
السؤال رقم 61: ما هو وضع التصحيح في تخطيط تدفقات البيانات؟
السؤال رقم 62: كيف يتعامل ADF مع التحويلات واسعة النطاق بكفاءة؟
السؤال رقم 63: ما هي بعض التحديات الشائعة التي تواجهها أثناء العمل مع ADF، وكيف تعالجها؟
كيفية الاستعداد لمقابلة مصنع بيانات Azure Data Factory
تجربة مقابلة مصنع بيانات Azure Data Factory – أمير رحمن، ماليزيا
الخاتمة
ما أهمية مصنع بيانات Azure Data Factory؟
يساعد Azure Data Factory الشركات على التعامل مع البيانات الضخمة بكفاءة. وهو يدعم تكامل البيانات والأتمتة والتحويل، مما يجعله أمرًا حيويًا لاتخاذ قرارات حديثة تعتمد على البيانات وسير العمل بسلاسة في السحابة.
سهولة نقل البيانات: تنقل ADF البيانات بسلاسة بين خدمات الحوسبة السحابية والمحلية.
خطوط أنابيب مرنة: تتعامل أنشطة خطوط الأنابيب مع المهام المعقدة باستخدام أنشطة تدفق التحكم ومتغيرات المستخدم.
يعمل مع الخدمات الأخرى: يتصل ADF مع Azure Databricks لمهام البيانات المتقدمة.
يدير البيانات الضخمة: يتعامل مع أحمال البيانات الكبيرة مع مجموعات البيانات النقطية ومجموعات البيانات المصدر بسهولة.
تصميم من الدرجة الأولى: خطوط الأنابيب هي مفهوم من الدرجة الأولى من المستوى الأعلى لإدارة المهام على مستوى خط الأنابيب.
اعرف المزيد: أفضل 12 شهادة من Microsoft لعام 2024 (عند الطلب)
أسئلة وإجابات مقابلات مصنع بيانات Azure Data Factory
هل تستعد لمقابلة مصنع بيانات Azure Data Factory؟ إن إتقان الأسئلة والأجوبة الشائعة يعزز ثقتك بنفسك، ويعرض مهاراتك، ويساعدك على تأمين دور هندسة البيانات. كن مستعدًا لإثارة الإعجاب!
السؤال رقم 01: ما هو الغرض الأساسي من Azure Data Factory؟
يعد Azure Data Factory (ADF) خدمة قائمة على السحابة من Microsoft. وهي تساعد في نقل البيانات وتغييرها وتحميلها بين أماكن مختلفة. يستخدم ADF خطوط أنابيب مع أنشطة للتعامل مع البيانات. تعمل هذه الأنشطة مع مجموعات البيانات المصدرية ومجموعات البيانات النقطية. يتصل ADF بخدمات أخرى مثل Azure Databricks لمهام بيانات قوية. تساعد أنشطة تدفق التحكم في إدارة كيفية تشغيل المهام. يمكن أن تستخدم خطوط الأنابيب متغيرات المستخدم لتمرير المعلومات إلى النشاط التالي. يجعل ADF تكامل البيانات سهلاً وسريعاً.
كما أنها خدمة تكامل بيانات سحابية أصلية مُدارة بالكامل تتيح للمستخدمين إنشاء مهام سير عمل تعتمد على البيانات لعمليات الاستخراج والتحويل والتحميل (ETL) أو ELT (الاستخراج والتحميل والتحويل). تشمل أغراضها الأساسية ما يلي:
تكامل البيانات: يدعم استخراج البيانات من مصادر متعددة مثل قواعد البيانات وتخزين الملفات وتطبيقات SaaS من خلال مكتبة غنية من الوصلات.
تحويل البيانات: يوفر إمكانات تدفق البيانات وتخطيط تدفق البيانات، مما يتيح التصميم المرئي لمنطق التحويل دون الحاجة إلى الترميز.
جدولة البيانات: يوفر مشغلات تستند إلى الوقت أو الأحداث لتنفيذ خط الأنابيب تلقائيًا.
المراقبة والإدارة: يوفر أدوات مراقبة شاملة لتتبع تنفيذ خط الأنابيب والأداء والسجلات.
السؤال رقم 02: ما هي المكونات الرئيسية لمصنع بيانات Azure Data Factory، وما هي أدوارها؟
المكونات الرئيسية لمصنع بيانات أزور تشمل:
خط الأنابيب: حاوية المستوى الأعلى لتنظيم وإدارة الأنشطة ذات الصلة ضمن سير العمل.
النشاط: وحدة التنفيذ الأساسية التي تؤدي مهام مثل نسخ البيانات أو تدفق البيانات أو الإجراءات المخزنة.
مجموعة البيانات: تمثل هياكل البيانات، وتصف موقع البيانات وتنسيقها ومخططها لمدخلات/مخرجات خط الأنابيب.
الخدمة المرتبطة: تخزين معلومات الاتصال بمصادر البيانات الخارجية مثل قواعد البيانات أو أنظمة الملفات.
المشغّل: يحدد الشروط والجداول الزمنية لتنفيذ خط الأنابيب، مثل المشغلات المستندة إلى الوقت أو المشغلات المستندة إلى الأحداث.
السؤال رقم 03: ما هو تدفق البيانات في Azure Data Factory، وما هي مزاياه؟
تدفق البيانات في Azure Data Factory هو أداة مرئية لتصميم منطق تحويل البيانات المعقدة دون ترميز. وتشمل مزاياها ما يلي:
سهولة الاستخدام: واجهة السحب والإفلات لربط مصادر البيانات والتحويلات والمصارف.
المرونة: تدعم مجموعة كبيرة من التحويلات، مثل التصفية والتجميع والفرز والربط.
الأداء: الاستفادة من Apache Spark لمعالجة عالية الكفاءة لمجموعات البيانات الكبيرة.
وظائف مدمجة: يقدم مجموعة متنوعة من الدوال والتعبيرات لتنظيف البيانات وتحويلها وحسابها.
السؤال رقم 04: كيف يمكنك استخدام Git للتحكم في الإصدار في Azure Data Factory؟
لاستخدام Git للتحكم في الإصدار في Azure Data Factory:
تكوين مستودع Git: في بوابة ADF، قم بتمكين التحكم في الإصدار وربط مستودع Git (على سبيل المثال، GitHub أو Azure Repos).
ارتباط الفرع: اربط موارد ADF (خطوط الأنابيب ومجموعات البيانات وما إلى ذلك) بفروع Git محددة.
إجراء التغييرات: بعد إجراء تعديلات في بوابة ADF، قم بإجراء تغييرات على فرع Git المرتبط.
التعاون: يمكن لأعضاء الفريق التعاون من خلال مستودع Git ومشاركة التعليمات البرمجية ومراجعة التغييرات ودمج الفروع.
CI/CD: قم بإعداد خطوط أنابيب CI/CD لأتمتة النشر من التطوير إلى بيئات الاختبار والإنتاج.
السؤال رقم 05: ما هي آخر التحديثات والتحسينات في Azure Data Factory لمعالجة البيانات وتكاملها؟
تتضمن آخر تحديثات مصنع بيانات Azure Data Factory ما يلي:
موصلات جديدة: دعم موسع لمصادر البيانات مثل Google BigQuery و Snowflake.
تحسين الأداء: تحسين أداء المحرك لنسخ البيانات وتحويلها بشكل أسرع مع زمن انتقال أقل.
تدفقات بيانات محسّنة: وظائف تحويل إضافية وقدرات برمجة نصية متقدمة.
مراقبة أفضل: مقاييس الأداء في الوقت الحقيقي، والتسجيل، وإشعارات التنبيهات لتحسين إدارة المهام.
السؤال رقم 06: ما هو Azure Data Factory؟
Azure Data Factory عبارة عن خدمة سحابية قائمة على السحابة ومدارة بالكامل وبدون خادم لعمليات تحويل البيانات وتكامل البيانات التي تقدمها Microsoft Azure. وهي تعمل على أتمتة حركة البيانات وتحويلها بين مصادر البيانات والوجهات المختلفة. يتيح Azure Data Factory للمستخدمين إنشاء عمليات سير عمل تعتمد على البيانات (خطوط الأنابيب) التي تنظّم حركة البيانات وتحويلها تلقائيًا.
السؤال رقم 07: لماذا نحتاج إلى Azure Data Factory؟
هناك حاجة إلى Azure Data Factory لعدة أسباب:
يتيح إنشاء مهام سير العمل التي تنظم حركة البيانات بين مخازن البيانات المدعومة.
يتيح مراقبة وإدارة مهام سير العمل باستخدام كل من الآليات البرمجية وآليات واجهة المستخدم.
إنها أداة ممتازة لعمليات ETL مع واجهة سهلة الاستخدام.
يساعد في تنقيح مخازن هائلة من بيانات الأعمال الخام إلى رؤى تجارية قابلة للتنفيذ.
السؤال رقم 08: ما هي المكونات الرئيسية لمصنع بيانات Azure Data Factory؟
تتضمن المكونات الرئيسية لمصنع بيانات Azure Data Factory ما يلي:
خطوط الأنابيب
الأنشطة
مجموعات البيانات
الخدمات المرتبطة
وقت تشغيل التكامل
المشغلات
السؤال رقم 09: ما هو وقت تشغيل التكامل في مصنع بيانات Azure؟
وقت تشغيل التكامل (IR) هو البنية التحتية للحوسبة التي يستخدمها Azure Data Factory لتوفير إمكانات تكامل البيانات عبر بيئات الشبكة المختلفة. إنه بمثابة جسر بين الأنشطة والخدمات المرتبطة، حيث يوفر بيئة الحوسبة حيث يتم تشغيل الأنشطة مباشرةً أو يتم إرسالها.
السؤال رقم 10: كم عدد أنواع وقت تشغيل التكامل الموجودة في Azure Data Factory؟
هناك ثلاثة أنواع من وقت تشغيل التكامل في Azure Data Factory:
وقت تشغيل تكامل أزور للتكامل
وقت تشغيل التكامل المستضاف ذاتيًا
وقت تشغيل تكامل Azure-SQL Server Integration Runtime (SSIS) لخدمات تكامل Azure-SQL Server (SSIS)
السؤال رقم 11: ما هو الفرق بين مجموعة البيانات والخدمة المرتبطة في Azure Data Factory؟
تحدد الخدمة المرتبطة معلومات الاتصال اللازمة لمصنع بيانات Azure للاتصال بالموارد الخارجية. وهي تشبه سلسلة الاتصال التي تحدد معلومات الاتصال المطلوبة للاتصال بمصدر بيانات. أما مجموعة البيانات، من ناحية أخرى، فهي عبارة عن طريقة عرض مسماة للبيانات تشير إلى البيانات أو تشير إلى البيانات التي سيتم استخدامها في الأنشطة كمدخلات أو مخرجات. وهي تمثل هياكل البيانات داخل مخازن البيانات.
السؤال رقم 12: ما هي أنواع المشغلات التي يدعمها Azure Data Factory؟
يدعم Azure Data Factory ثلاثة أنواع من المشغلات:
مشغّل الجدول الزمني: تشغيل خط أنابيب على جدول زمني على مدار الساعة
مشغل النافذة الدورية: المشغلات على فاصل زمني دوري مع الحفاظ على الحالة
المشغّل المستند إلى حدث: يستجيب لحدث ما
السؤال رقم 13: ما هو خط الأنابيب في Azure Data Factory؟
خط الأنابيب في Azure Data Factory هو تجميع منطقي للأنشطة التي تؤدي مهمة ما معًا. تحدد الأنشطة في خط أنابيب الإجراءات التي يجب تنفيذها على بياناتك. على سبيل المثال، يمكنك استخدام نشاط النسخ لنسخ البيانات من مخزن بيانات إلى آخر ثم استخدام نشاط Hive الذي يقوم بتشغيل استعلام Hive لمعالجة البيانات.
السؤال رقم 14: ما الفرق بين Azure Data Lake و Azure Data Warehouse؟
تم تصميم بحيرة بيانات Azure Data Lake لأعباء عمل تحليلات البيانات الضخمة، مما يوفر مستودعًا لتخزين كميات كبيرة من البيانات الأولية بتنسيقها الأصلي. تم تحسينها لتوسيع نطاقها لتستوعب تيرابايت وبيتا بايت من البيانات. Azure Data Warehouse (الآن Azure Synapse Analytics) هو مستودع بيانات مؤسسي قائم على السحابة (EDW) يستفيد من المعالجة المتوازية الضخمة (MPP) لتشغيل استعلامات معقدة عبر بيتابايت من البيانات بسرعة. تم تحسينه لعمليات القراءة والاستعلامات المعقدة.
السؤال رقم 15: كيف يمكنك مراقبة خطوط الأنابيب في Azure Data Factory؟
يستخدم Azure Data Factory لوحة “المراقبة والإدارة” في شفرة مصنع البيانات في بوابة Azure لمراقبة خطوط الأنابيب. يمكنك أيضًا استخدام Azure Monitor، وPowerShell، وسجلات Azure Monitor، ولوحات الصحة على بوابة Azure.
السؤال رقم 16: ما هي الخدمة المرتبطة في مصنع بيانات أزور؟
تُستخدم الخدمة المرتبطة في Azure Data Factory لغرضين رئيسيين:
لتمثيل مخزن بيانات، مثل حساب تخزين Azure Blob، أو مشاركة ملفات، أو مثيل Oracle DB/SQL Server.
لتمثيل مورد حوسبة يمكنه استضافة تنفيذ نشاط ما.
السؤال رقم 17: ما المطلوب لتنفيذ حزمة SSIS في مصنع البيانات؟
لتنفيذ حزمة SSIS في مصنع البيانات، تحتاج إلى:
إنشاء وقت تشغيل تكامل SSIS
إنشاء كتالوج SSISDB مستضاف في قاعدة بيانات Azure SQL Server أو مثيل Azure SQL المُدار.
السؤال رقم 18: هل يمكن لمصنع بيانات Azure Data Factory أن يتكامل مع بيانات التعلم الآلي؟
نعم، يمكن أن يتكامل Azure Data Factory مع بيانات التعلم الآلي. يمكنك تدريب النماذج وإعادة تدريبها على بيانات التعلم الآلي من خطوط الأنابيب ونشرها كخدمات ويب.
السؤال رقم 19: ما هو الغرض من نشاط النسخ في Azure Data Factory؟
يُستخدم نشاط النسخ في Azure Data Factory لنسخ البيانات من مخزن بيانات مصدر إلى مخزن بيانات مصدر. وهو يدعم العديد من مخازن البيانات كمصادر ومصارف، بما في ذلك مخازن البيانات المحلية ومخازن البيانات السحابية وتطبيقات SaaS.
السؤال رقم 20: ما هو تدفق البيانات في Azure Data Factory؟
تدفقات البيانات في Azure Data Factory عبارة عن تحويلات بيانات مصممة بصريًا تسمح لك بتطوير منطق تحويل البيانات دون كتابة تعليمات برمجية. وهي توفر تجربة مرئية بالكامل دون الحاجة إلى ترميز وتنفذ على مجموعات Apache Spark المتدرجة.
السؤال رقم 21: كيف يمكنك التعامل مع القيم الفارغة في مخرجات النشاط؟
يمكنك استخدام البنية @coalesce في التعبيرات للتعامل مع القيم الفارغة في مخرجات النشاط. تُرجع هذه الدالة أول قيمة غير فارغة من قائمة التعبيرات.
السؤال رقم 22: ما هو نشاط ForEach في مصنع بيانات أزور؟
يُستخدم نشاط ForEach في Azure Data Factory للتكرار من خلال مجموعة وتنفيذ مجموعة من الأنشطة لكل عنصر في المجموعة. يكون مفيدًا عندما تحتاج إلى تنفيذ نفس مجموعة الأنشطة لمجموعات بيانات أو ملفات متعددة.
السؤال رقم 23: ما هو نشاط الحصول على البيانات الوصفية في مصنع بيانات Azure؟
يُستخدم نشاط الحصول على البيانات الوصفية في مصنع بيانات Azure لاسترداد معلومات البيانات الوصفية حول أي مصدر بيانات. يمكن أن يتضمن ذلك معلومات مثل حجم الملف أو تاريخ آخر تعديل أو قائمة الملفات في مجلد.
السؤال رقم 24: كيف يمكنك تمرير المعلمات بين الأنشطة في خط أنابيب؟
يمكنك تمرير المعلمات بين الأنشطة في خط أنابيب باستخدام البناء @activity. وهذا يسمح لك باستخدام مخرجات أحد الأنشطة كمدخلات لنشاط آخر داخل نفس خط الأنابيب.
السؤال رقم 25: ما هي قاعدة بيانات Azure SQL Database، وكيف يمكن دمجها مع Data Factory؟
قاعدة بيانات Azure SQL Database هي خدمة قاعدة بيانات علائقية مُدارة بالكامل مصممة للسحابة. إنها محدثة دائمًا ويمكن دمجها بسهولة مع Azure Data Factory. يمكنك تصميم خطوط أنابيب البيانات للقراءة من قاعدة بيانات SQL DB والكتابة إليها باستخدام Azure Data Factory.
السؤال رقم 26: ما هي تحليلات بحيرة بيانات Azure Data Lake Analytics؟
تحليلات بحيرة بيانات Azure Data Lake Analytics هي خدمة وظائف تحليلية عند الطلب تعمل على تبسيط تحليل البيانات الضخمة. وهي توفر بنية تحتية موزعة يمكن أن تتكيف ديناميكيًا للتعامل مع المهام من أي نطاق، مما يسمح لك بالتركيز على أهداف عملك بدلاً من إدارة البنية التحتية الموزعة.
السؤال رقم 27: كيف يتعامل Azure Data Factory مع أمان البيانات؟
يتعامل Azure Data Factory مع أمان البيانات من خلال عدة آليات:
تكامل Azure Key Vault لتخزين بيانات الاعتماد بشكل آمن
تشفير البيانات أثناء النقل وفي حالة السكون
دعم الشبكة الافتراضية (VNet) للنقل الآمن للبيانات
الهوية المدارة لمصادقة موارد Azure
التحكم في الوصول المستند إلى الدور (RBAC) لإدارة الوصول الدقيق
السؤال رقم 28: ما الفرق بين Azure Data Factory V1 و V2؟
Azure Data Factory V2 هو نسخة محسنة من V1 مع العديد من التحسينات:
التوافر العالمي
تحسين تجارب التأليف المرئي والمراقبة
دعم تنفيذ حزم SSIS
دعم أنشطة بايثون
جدولة مرنة (المشغلات المستندة إلى الوقت والحدث)
التكامل مع Azure Data Lake Storage Gen2
يوصى باستخدام V2 لجميع المشاريع الجديدة.
السؤال رقم 29: كيف يمكنك جدولة خط أنابيب في Azure Data Factory؟
يمكنك جدولة خط أنابيب في Azure Data Factory باستخدام المشغلات. هناك ثلاثة أنواع من المشغلات:
جدولة المشغلات: تشغيل خطوط الأنابيب وفقًا لجدول زمني محدد (على سبيل المثال، كل ساعة، يوميًا)
مشغل النافذة المتغيرة: يقوم بتشغيل خطوط الأنابيب على فاصل زمني دوري مع الحفاظ على الحالة
المشغّل المستند إلى الحدث: يستجيب للأحداث (على سبيل المثال، نقطة تم إنشاؤها في Azure Storage)
السؤال رقم 30: ما هو الغرض من تعيين تدفقات البيانات في مصنع بيانات Azure؟
يوفر تعيين تدفقات البيانات في Azure Data Factory واجهة مرئية خالية من التعليمات البرمجية لتصميم وتنفيذ منطق تحويل البيانات. فهي تسمح لك بإنشاء عمليات ETL وإدارتها بيانيًا دون كتابة أي تعليمات برمجية. يتم تشغيل تدفقات البيانات على مجموعات Apache Spark المتدرجة، مما يوفر إمكانات تحويل بيانات قوية ومرنة.
السؤال رقم 31: ما هو الفرق بين تخطيط تدفق البيانات وتدفق البيانات في مصنع بيانات Azure؟
تخطيط تدفق البيانات وتخطيط تدفق البيانات هما أداتان مرئيتان لتحويل البيانات في مصنع بيانات Azure، لكنهما تخدمان أغراضًا مختلفة. تخطيط تدفق البيانات:
مصممة لتحويلات البيانات المعقدة
يستخدم بيئة أباتشي سبارك المتدرجة.
يدعم مجموعة واسعة من مصادر البيانات ومصارفها
يقدم مجموعة غنية من عمليات تحويل البيانات
معالجة تدفق البيانات:
مصمم لمهام إعداد البيانات التفاعلية السريعة والتفاعلية
يستخدم لغة الصيغة Power Query M
يركز بشكل أساسي على تطهير البيانات والتحويلات البسيطة
يقدم تجربة تفاعلية شبيهة ببرنامج Excel لإعداد البيانات
السؤال رقم 32: كيف يمكنك التعامل مع المعلومات الحساسة في Azure Data Factory؟
يوفر Azure Data Factory عدة طرق للتعامل مع المعلومات الحساسة:
تكامل Azure Key Vault: تخزين واسترجاع الأسرار بأمان
الهويات المدارة: المصادقة على موارد Azure دون تخزين بيانات الاعتماد في التعليمات البرمجية
تكوين مشفر: يتم تشفير خط الأنابيب والقطع الأثرية الأخرى في حالة السكون
وصول آمن إلى مخازن البيانات: استخدام الشبكات الافتراضية وجدران الحماية لتقييد الوصول
السؤال رقم 33: ما هو الغرض من وقت تشغيل التكامل المستضاف ذاتيًا في مصنع بيانات Azure؟
يخدم وقت تشغيل التكامل المستضاف ذاتيًا (SHIR) عدة أغراض:
تمكين حركة البيانات بين مخازن البيانات المحلية ومخازن البيانات السحابية
يدعم أنشطة تدفق البيانات في شبكة افتراضية
يسمح بتنفيذ حزم SSIS في مصنع بيانات Azure Data Factory
يوفر طريقة آمنة لنقل البيانات دون فتح منافذ جدار الحماية
يعد SHIR مفيدًا بشكل خاص عند التعامل مع مصادر البيانات الموجودة خلف جدران حماية الشركات أو في الشبكات الخاصة.
السؤال رقم 34: كيف يتعامل Azure Data Factory مع نسب البيانات؟
يوفر Azure Data Factory معلومات نسب البيانات من خلال:
التمثيل المرئي في واجهة مستخدم ADF: يُظهر تدفق البيانات من المصدر إلى الوجهة.
تكامل Azure Purview: يوفر تسلسل بيانات مفصل عبر خدمات Azure المتعددة
خطوط أنابيب تعتمد على البيانات الوصفية: السماح بتتبع تحويلات البيانات وحركاتها
يساعد ذلك في فهم مصدر البيانات، وتحليل التأثير، والامتثال التنظيمي
السؤال رقم 35: ما الفرق بين نشاط البحث ونشاط الحصول على البيانات الوصفية؟
كلا النشاطين يسترجعان المعلومات، ولكنهما يخدمان أغراضًا مختلفة: نشاط البحث:
استرجاع مجموعة بيانات من مصدر بيانات مدعوم
غالبًا ما يُستخدم لاسترداد بيانات التكوين أو إجراء عمليات تحقق بسيطة
يُرجع صفًا واحدًا أو الصف الأول من مجموعة نتائج
نشاط GetMetadata:
استرجاع معلومات البيانات الوصفية الخاصة بمخزن بيانات أو ملف بيانات
يُستخدم للحصول على معلومات مثل حجم الملف أو تاريخ آخر تعديل أو قائمة الملفات في مجلد ما
إرجاع خصائص البيانات الوصفية لكائن البيانات المحدد.
السؤال رقم 36: كيف يمكنك تنفيذ المحتوى الديناميكي في خطوط أنابيب Azure Data Factory؟
يمكن تنفيذ المحتوى الديناميكي في ADF باستخدام:
المعلمات: تحديد القيم القابلة لإعادة الاستخدام على مستوى خط الأنابيب أو مجموعة البيانات
المتغيرات: تخزين وتعديل القيم أثناء تنفيذ خط الأنابيب
متغيرات النظام: استخدم المتغيرات المضمنة مثل @خط الأنابيب().RunId
التعبيرات: إنشاء منطق معقد باستخدام الدوال والعوامل
مجموعات البيانات الديناميكية: تغيير خصائص مجموعة البيانات في وقت التشغيل
تتيح هذه الميزات تصميمات خطوط أنابيب مرنة وقابلة لإعادة الاستخدام.
السؤال رقم 37: ما هو الغرض من نشاط التبديل في Azure Data Factory؟
يسمح نشاط التبديل في ADF بالتفرع الشرطي في خطوط الأنابيب:
يقوم بتقييم تعبير ما وينفذ حالة معينة بناءً على النتيجة
مفيد في تنفيذ منطق سير العمل المعقد
يمكن أن يكون لها حالات متعددة وحالة افتراضية
يساعد في إنشاء خطوط أنابيب أكثر ديناميكية ومرونة
السؤال رقم 38: كيف يتعامل Azure Data Factory مع الإصدار والتحكم في المصدر؟
يتكامل Azure Data Factory مع أنظمة التحكم في المصدر:
تكامل Git: ربط ADF مع Azure Repos أو GitHub
إدارة الفروع: العمل على فروع مختلفة للتطوير والإنتاج
التطوير التعاوني: يمكن لأعضاء الفريق المتعددين العمل على نفس المصنع
سجل الإصدارات: تتبع التغييرات والعودة إذا لزم الأمر
تكامل CI/CD: أتمتة عمليات النشر باستخدام Azure DevOps أو إجراءات GitHub
يتيح ذلك تحسين التعاون وتتبع التغييرات وإدارة النشر.
السؤال رقم 39: ما الفرق بين نشاط النسخ ونشاط تدفق البيانات؟
يخدم نشاط النسخ ونشاط تدفق البيانات أغراضًا مختلفة. نشاط النسخ:
مصممة لحركة البيانات البسيطة بين المصادر والمصارف المدعومة
ينفذ الحد الأدنى من التحويلات (مثل تحويلات النوع)
أسرع بشكل عام لمهام نسخ البيانات المباشرة.
نشاط تدفق البيانات:
مصمم لتحويلات البيانات المعقدة
يقدم مجموعة واسعة من عمليات التحويل
يعمل على بيئة أباتشي سبارك الموسعة
يوفر واجهة مرئية خالية من التعليمات البرمجية لتصميم التحويلات
السؤال رقم 40: كيف يمكنك تحسين أداء أنشطة النسخ في Azure Data Factory؟
لتحسين أداء نشاط النسخ
استخدم النسخ المتوازي: قم بتعيين خاصية النسخ المتوازي لنسخ البيانات بالتوازي
استخدم التدريج: تمكين النسخ المرحلي لتحسين الإنتاجية في سيناريوهات معينة
ضغط البيانات: استخدم الضغط لتقليل وقت نقل البيانات
استخدم وقت تشغيل التكامل الصحيح: اختر بين Azure IR و IR المستضاف ذاتيًا بناءً على السيناريو الخاص بك
تحسين استعلام المصدر: استخدم استعلامات فعالة لاسترداد البيانات الضرورية فقط
استخدم تنسيق الملف المناسب: اختر التنسيقات المثلى مثل Parquet للحصول على أداء أفضل
يمكن لهذه التحسينات تحسين سرعات نقل البيانات بشكل كبير وتقليل وقت التنفيذ.
السؤال رقم 41: ما هي أوقات تشغيل التكامل في مصنع بيانات Azure، وكيف تقرر أيهما تستخدم؟
أوقات تشغيل التكامل (IR) هي البنية التحتية للحوسبة التي يستخدمها ADF لحركة البيانات وتحويلها وإرسال الأنشطة. هناك ثلاثة أنواع:
Azure IR: لحركة وتحويل البيانات المستندة إلى السحابة.
IR المستضاف ذاتيًا: لمصادر البيانات المحلية أو مصادر بيانات الشبكة الخاصة.
Azure SSIS IR: لتشغيل حزم خدمات تكامل SQL Server (SSIS).
حالة الاستخدام: إذا كنت بحاجة إلى نسخ البيانات بين SQL Server المحلي و Azure Blob Storage، يلزم وجود IR ذاتي الاستضافة للوصول إلى البيانات المحلية بشكل آمن
السؤال رقم 42: كيف يمكنك تنفيذ عمليات التحميل التزايدي للبيانات في ADF؟
يمكن تحقيق التحميل التزايدي باستخدام:
أعمدة العلامة المائية: استخدام عمود مثل LastModifiedDate لتتبع التغييرات.
تتبع التغييرات: الاستفادة من ميزات قاعدة البيانات مثل تتبع التغييرات في SQL Server.
بحيرة دلتا: استخدم جداول دلتا للمعالجة الإضافية الفعالة.
مثال: في خط أنابيب، استخدم نشاط بحث لجلب الحد الأقصى لقيمة العلامة المائية من الهدف، ثم تصفية بيانات المصدر باستخدام هذه القيمة
السؤال رقم 43: اشرح كيفية التعامل مع انجراف المخطط في ADF.
يشير انجراف المخطط إلى التغييرات في مخطط المصدر بمرور الوقت. يدعم ADF:
تعيين تدفقات البيانات: استخدام التعيين الديناميكي للتعامل مع الأعمدة غير المعروفة.
خيار انجراف المخطط: تمكين هذا الإعداد في تدفقات البيانات لمعالجة المخططات المتطورة دون تحديثات يدوية.
حالة الاستخدام: عند استيعاب ملفات JSON حيث قد تختلف الحقول عبر الملفات، قم بتمكين معالجة انجراف المخطط
السؤال رقم 44: كيف يمكنك تحسين الأداء في خطوط أنابيب ADF؟
تتضمن الاستراتيجيات الرئيسية ما يلي:
تمكين التوازي من خلال تقسيم البيانات في أنشطة النسخ.
استخدام التخزين المرحلي لحركة البيانات على نطاق واسع.
تحسين تدفقات بيانات التعيين عن طريق ضبط إعدادات Spark مثل استراتيجية التقسيم.
نصيحة عملية: بالنسبة لخط أنابيب ينسخ تيرابايت من البيانات، استخدم Azure Blob Storage كتخزين مرحلي مؤقت قبل التحميل إلى Azure Synapse Analytics
السؤال رقم 45: كيف يمكنك مراقبة خطوط الأنابيب وتصحيحها في ADF؟
يوفر ADF:
سجلات تشغيل النشاط: عرض تفاصيل تنفيذ كل نشاط.
مقاييس وقت تشغيل التكامل: مراقبة استخدام موارد الحوسبة.
وضع تصحيح خط الأنابيب: اختبار خطوط الأنابيب دون تشغيل عمليات التشغيل الكاملة.
مثال: استخدم علامة التبويب “الإخراج” في وضع التصحيح لفحص النتائج الوسيطة أثناء التحويلات
السؤال رقم 46: ما هي الخدمات المرتبطة في ADF، وكيف تختلف عن مجموعات البيانات؟
الخدمات المرتبطة: تحديد تفاصيل الاتصال بالموارد الخارجية (على سبيل المثال، قاعدة بيانات Azure SQL Database).
مجموعات البيانات: تمثيل بنية البيانات داخل هذه الموارد (على سبيل المثال، مخطط الجدول أو الملف).
تشبيه: الخدمات المرتبطة تشبه سلاسل الاتصال، بينما مجموعات البيانات هي مؤشرات لجداول أو ملفات محددة
السؤال رقم 47: كيف يمكنك تأمين المعلومات الحساسة في ADF؟
استخدم تكامل Azure Key Vault لتخزين الأسرار مثل سلاسل الاتصال أو مفاتيح واجهة برمجة التطبيقات بشكل آمن. قم بالرجوع إلى هذه الأسرار في الخدمات المرتبطة باستخدام معلمات مخزن المفاتيح. مثال:
قم بتأمين مفتاح Azure Blob Storage عن طريق ربط Key Vault بمثيل ADF الخاص بك
السؤال رقم 48: هل يمكنك شرح مفهوم المشغلات في ADF؟
تقوم المشغلات بأتمتة تنفيذ خط الأنابيب وتتضمن:
جدولة المشغلات: تشغيل خطوط الأنابيب في أوقات محددة.
المشغلات القائمة على الأحداث: التفاعل مع الأحداث مثل إنشاء النقطة.
مشغلات النوافذ المتقطعة: معالجة البيانات المقطعة زمنيًا.
حالة الاستخدام: استخدم المشغلات المستندة إلى الأحداث لبدء خط أنابيب عند وصول ملف جديد إلى Azure Blob Storage
السؤال رقم 49: كيف يتعامل ADF مع سيناريوهات الفشل في خطوط الأنابيب؟
يوفر ADF:
سياسات إعادة المحاولة للفشل العابر.
معالجة الأخطاء المخصصة باستخدام أنشطة If Condition أو Switch.
تنبيهات عبر تكامل Azure Monitor.
مثال: تكوين إعادة المحاولة لفشل نسخ النشاط بسبب مشاكل في الشبكة
السؤال رقم 50: ما هو دور نشاط الإجراءات المخزنة في ADF؟
يقوم هذا النشاط بتنفيذ الإجراءات المخزنة في قواعد البيانات للتحويلات المعقدة أو منطق الأعمال. حالة الاستخدام: استدعاء إجراء مخزن لحساب المجاميع قبل التحميل في جدول التقارير.
السؤال رقم 51: كيف يمكنك تنفيذ CI/CD مع ADF؟
الخطوات تشمل:
تصدير قوالب ARM من ADF.
استخدام خطوط أنابيب Azure DevOps أو إجراءات GitHub لأتمتة النشر.
وضع معلمات للقوالب للإعدادات الخاصة بالبيئة.
مثال: نشر خطوط الأنابيب من التطوير إلى الإنتاج باستخدام خطوط أنابيب DevOps YAML
السؤال رقم 52: اشرح استراتيجيات التقسيم في ADF.
يقسم التقسيم مجموعات البيانات الكبيرة إلى أجزاء أصغر للمعالجة المتوازية:
التقسيم التجزئي
التقسيم الدائري الدائري
تقسيم النطاق
مثال: تقسيم بيانات المبيعات حسب المنطقة لمعالجة أسرع
السؤال رقم 53: كيف يتكامل ADF مع Databricks؟
يمكن ل ADF تشغيل دفاتر ملاحظات Databricks عبر الويب أو أنشطة دفتر الملاحظات للتحليلات المتقدمة. حالة الاستخدام: استخدم دفاتر ملاحظات Databricks للمعالجة المسبقة للتعلم الآلي التي يتم تشغيلها بواسطة خط أنابيب ADF.
السؤال رقم 54: ما الفرق بين ETL و ELT في ADF؟
تقوم ETL بتحويل البيانات قبل تحميلها إلى الهدف، بينما تقوم ELT بتحميل البيانات الأولية أولاً وتحويلها داخل النظام الهدف (على سبيل المثال، SQL). مثال: استخدم ELT عند الاستفادة من قوة الحوسبة الخاصة ب Synapse Analytics في التحويلات.
السؤال رقم 55: كيف تتعامل مع خطوط الأنابيب الديناميكية في ADF؟
استخدم المعلمات والتعبيرات (@خط الأنابيب()، @النشاط()) لإنشاء خطوط أنابيب قابلة لإعادة الاستخدام تتكيف بناءً على المدخلات. مثال: إنشاء خط أنابيب يعالج أنواع الملفات المختلفة ديناميكيًا استنادًا إلى المعلمات.
السؤال رقم 56: ما هو PolyBase، وكيف يعمل مع ADF؟
يسمح PolyBase بالتحميل الجماعي عالي السرعة في Synapse Analytics من خلال قراءة الملفات مباشرةً من التخزين دون الحاجة إلى ترحيل وسيط. حالة الاستخدام: تحميل تيرابايت من ملفات CSV إلى Synapse Analytics باستخدام PolyBase عبر نشاط النسخ.
السؤال رقم 57: ما هي أنشطة البحث والتصفية المستخدمة؟
يسترجع البحث مجموعات البيانات الصغيرة (مثل جداول التكوين).
يقوم عامل التصفية بتحديد صفوف محددة من مجموعات البيانات المدخلة بناءً على الشروط.
مثال: استخدم البحث لجلب معلمات خط الأنابيب المخزنة في قاعدة بيانات
السؤال رقم 58: كيف تدير التبعيات بين الأنشطة في خط أنابيب؟
استخدم تبعيات النشاط (نجاح، فشل، اكتمال) للتحكم في ترتيب التنفيذ. مثال: تأكد من تشغيل مهام التنظيف فقط بعد نجاح جميع الأنشطة الرئيسية.
السؤال رقم 59: ما هو الغرض من نشاط الويب في ADF؟
يستدعي نشاط الويب واجهات برمجة تطبيقات REST من داخل خط أنابيب، مما يتيح التكامل مع الخدمات الخارجية. حالة الاستخدام: قم بتشغيل سير عمل خارجي عبر واجهة برمجة التطبيقات بعد الانتهاء من تحميل البيانات.
السؤال رقم 60: كيف يعمل التحكم في الإصدار في ADF؟
التكامل مع مستودعات Git (على سبيل المثال، مستودعات Azure Repos) لإدارة إصدارات خط الأنابيب، مما يتيح إمكانات التعاون والتراجع. مثال: استخدم استراتيجيات تفرع Git لفصل بيئات التطوير عن بيئات الإنتاج.
السؤال رقم 61: ما هو وضع التصحيح في تعيين تدفقات البيانات؟
يسمح وضع التصحيح باختبار التحويلات بشكل تفاعلي باستخدام بيانات عينة محدودة دون تشغيل خط الأنابيب بالكامل. الفائدة: تسريع عملية استكشاف الأخطاء وإصلاحها أثناء التطوير.
السؤال رقم 62: كيف يتعامل ADF مع التحويلات واسعة النطاق بكفاءة؟
الاستفادة من تدفقات بيانات التعيين المستندة إلى Spark مع استراتيجيات التقسيم المحسنة وآليات التخزين المؤقت. مثال: معالجة المليارات من الصفوف من خلال تمكين مجموعات Spark ذات النطاق التلقائي.
السؤال رقم 63: ما هي بعض التحديات الشائعة التي تواجهها أثناء العمل مع ADF، وكيف تعالجها؟
التحديات تشمل:
التعامل مع تغييرات المخطط – تمت معالجتها من خلال التعيين الديناميكي.
اختناقات الأداء – تم حلها من خلال التقسيم والتخزين المرحلي.
تصحيح عمليات سير العمل المعقدة – تم تبسيطها باستخدام التسجيل الدقيق ووضع التصحيح.
كيفية الاستعداد لمقابلة مصنع بيانات Azure Data Factory
تختبر مقابلات Azure Data Factory (ADF) معرفتك بأدوات وعمليات البيانات السحابية. للنجاح، ركز على مهارات وميزات ADF الرئيسية. إليك كيفية الاستعداد بفعالية.
تعلم أساسيات ADF وهيكله
افهم الأساسيات