أسئلة مقابلة علم البيانات 2023 ما هي NumPy؟
NumPy هي مكتبة بايثون للحسابات الرقمية السريعة. توفر دوال مصفوفات عالية الأداء وموثوقة وقابلة للتطوير. يمكن استخدام مصفوفات NumPy كبديل للقوائم في العديد من الحالات. ما هي ميزة مصفوفات NumPy على القوائم؟
ميزة استخدام NumPy على القوائم هي أنها تستخدم ذاكرة أقل وأسرع من القوائم.
فهي تدعم المصفوفات متعددة الأبعاد، على عكس القوائم التي تساعد فقط المصفوفات أحادية البعد.
يمكن تقطيعها أو إعادة تشكيلها باستخدام صيغة تعبيرات بايثون القياسية للتقطيع وإعادة التشكيل. في المقابل، يجب إجراء التقطيعات على القوائم باستخدام عوامل خاصة مثل lambda أو استيعاب القوائم. ميّز بين التحليل أحادي المتغير، وثنائي المتغير، ومتعدد المتغيرات.
التحليل أحادي المتغير هو مجموعة بيانات تحتوي على متغير واحد فقط. يمكن أن تكون مجموعة البيانات فئوية أو عددية.
يجمع التحليل ثنائي المتغيرات بين متغيرين في مجموعة بيانات واحدة كبيرة تسمح لك بإجراء مقارنات مفصلة بينهما (على سبيل المثال، الفرق في متوسط الاستجابة لكل مجموعة علاجية عبر جميع المشاركين).
في التحليل متعدد المتغيرات، يمكن أن يكون هناك العديد من المتغيرات أكثر من التحليل أحادي المتغير أو ثنائي المتغيرات (عادةً ما يكون هناك متغير واحد على الأقل لكل عامل). إن الغرض الأساسي من استخدام متغيرات متعددة هو زيادة دقة بياننا حول ما نعتقد أنه صحيح حول مجموعة البيانات الخاصة بنا. ما هو الفرق بين استخدام iloc وloc وloc؟
يتمثل الفرق بين استخدام iloc و loc في أن iloc يُرجع كائن صف عبارة عن قائمة من القيم الصحيحة. على النقيض من ذلك، يُرجع الموقع كائن صف يحتوي على عمود واحد. بالإضافة إلى ذلك، فإن كائن الصف الذي يتم إرجاعه بواسطة iloc له موضع مضبوط على 0، مما يعني أنه يبدأ من الفهرس 0. من ناحية أخرى، لا يحتوي كائن الصف الذي يتم إرجاعه بواسطة loc على فهرس بداية، لذلك لا توجد أعداد صحيحة في العمود الأول (الذي يحتوي على القيم). ما الفرق بين سلسلة بانداس وإطار بيانات بانداس؟
Pandas Dataframe هو تنسيق تخزين البيانات للبيانات المجدولة، والتي يمكن تخزينها بكفاءة في الذاكرة. توفر مكتبة Pandas واجهة عالية المستوى لمعالجة البيانات المجدولة وتحليلها. في الوقت نفسه، يتم تخزين بنية البيانات الأساسية في إطار بيانات.
df = pd.DataFrame()
سلسلة بانداس، من ناحية أخرى، سلسلة بانداس هي مصفوفة متعددة الأبعاد يمكنها تخزين العديد من الأنواع المختلفة من الكائنات مثل المصفوفات والمصفوفات والقوائم. سلسلة الباندا عبارة عن سلسلة بانداس ذات بُعد واحد بصفوف N وأعمدة M حيث يمكن أن يكون N أي عدد صحيح موجب ويمكن أن يكون M أي عدد صحيح موجب أو قائمة فارغة ([]). بمعنى آخر، إنها مثل القائمة تمامًا ولكن بدون فهرسة.
s = pd.Series () ما هي خصائص ACID في SQL؟
الذرية: يتم تعريف المعاملة على أنها مجموعة من العمليات التي يجب تنفيذها دون أي آثار جزئية أو آثار جانبية. وهذا يعني أنه يجب ألا يتم تحديث البيانات في قاعدة البيانات إلا بعد تنفيذ المعاملة.
الاتساق: يجب أن تكون قاعدة البيانات متسقة في جميع الأوقات، أي يجب أن تكون جميع التحديثات على البيانات مرئية للمستخدمين والعمليات الأخرى.
العزل: تكون كل معاملة في قاعدة البيانات معزولة عن المعاملات الأخرى بحيث لا تلمس بيانات بعضها البعض أثناء تشغيلها بشكل متزامن.
المتانة: يجب أن تترك كل معاملة قاعدة البيانات في حالة متناسقة بعد اكتمالها ما لم يتم إخبار مالكها صراحةً بخلاف ذلك. الفرق بين DDL و DML
يرمز DDL إلى لغة تعريف البيانات، بينما يرمز DML إلى لغة التلاعب بالبيانات. الفرق الرئيسي بين هاتين اللغتين هو أن الأولى تُستخدم لتعريف البيانات. في المقابل، تُستخدم الثانية للتلاعب بها. بعبارة أخرى، تُستخدم لغة DDL لإنشاء الجداول، بينما تُستخدم لغة DML لتعديل السجلات الموجودة في الجدول.
DDL- الإنشاء والتعديل والإسقاط
DML- INSERT، تحديث، حذف ما هي القيود؟
تُستخدم قيود SQL للحد من نوع البيانات التي يمكن أن تدخل في الجدول، مما يضمن دقة وموثوقية البيانات في الجدول. يمكن أن تكون القيود إما على مستوى العمود أو على مستوى الجدول. تنطبق القيود على مستوى العمود على عمود واحد، بينما تنطبق القيود على مستوى الجدول على الجدول بأكمله. الفرق بين الانضمام والاتحاد
يجمع الانضمام بين جدولين مختلفين، يحتوي كل منهما على قائمة تحديد تحتوي على عمود واحد. يمكن القيام بذلك باستخدام دالة الانضمام(). تقوم بإرجاع طريقة عرض تجمع كل الصفوف من كلا الجدولين.
يُستخدم الاتحاد لدمج عدة أعمدة من جدول واحد في صف واحد. على سبيل المثال، تقوم الدالة union() بذلك عن طريق أخذ جميع الأعمدة المحددة من الجدول الأول ودمجها في صف واحد في الجدول الثاني. ما هي المشغلات المتداخلة؟
المشغلات المتداخلة هي ميزة في SQL Server تسمح لك بإنشاء مشغل يتم تشغيله عند تشغيل نفس العبارة أكثر من مرة. يمكن أن يكون هذا مفيدًا في المواقف التي تريد فيها تعديل البيانات استنادًا إلى حدث ما ولكنك تحتاج فقط إلى معالجة صف واحد في كل مرة. ما هي مصفوفة الارتباك؟
مصفوفة الارتباك هي جدول يلخص نتائج التنبؤ. يتم استخدامه لوصف أداء نموذج التصنيف. مصفوفة الارتباك هي عبارة عن مصفوفة n*n تقيّم مدى جودة تنبؤ خوارزمية ما بميزات مجموعة بيانات معينة. ما الفرق بين البيانات ذات التنسيق الطويل والبيانات ذات التنسيق العريض؟
التنسيق العريض هو بنية بيانات تسمح بتخزين معلومات أكثر بكثير من التنسيق الطويل. والفرق الرئيسي بين الاثنين هو أن التنسيق العريض يستخدم المزيد من البايتات للاحتفاظ بنفس كمية البيانات التي يستخدمها التنسيق الطويل. قد يجعل هذا الأمر من الصعب التنقل لأنك ستهدر مساحة أكبر على القرص الصلب أو في الذاكرة إذا كنت تستخدم تنسيقًا عريضًا.
يتم استخدام التنسيقات الطويلة بشكل عام عندما تريد توفير مساحة وتسريع جهاز الكمبيوتر الخاص بك، ولكن يتم استخدام التنسيقات العريضة عند تخزين المزيد من البيانات في ذاكرة الكمبيوتر أو القرص الصلب. لماذا يستخدم بايثون لتنظيف البيانات في DS؟
تُستخدم بايثون لتنظيف البيانات في علم البيانات لأنها تستطيع إجراء بعض عمليات التنظيف والتحويل الأساسية دون تبعيات إضافية.
تتمتع Python بدعم ممتاز لمكتبة Pandas ومكتبة NumPy – وهي مجموعة من الإجراءات الرياضية والإحصائية المستخدمة لمعالجة البيانات وتحليلها. تساعد القائمة الواسعة من المكتبات المتاحة لبايثون أيضًا على تحقيق نتائج سريعة عند الحاجة. ما هو التوزيع الطبيعي؟
التوزيع الطبيعي هو توزيع احتمالي مستمر يمكن استخدامه لنمذجة متغيرات عشوائية مختلفة. وهو التوزيع الاحتمالي الأكثر استخدامًا والأكثر أهمية في الإحصاء والاقتصاد والتمويل.
التوزيع الطبيعي هو حالة خاصة من التوزيع الغاوسي: له نفس المتوسط والتباين، لكن التباين ضعف المتوسط والتباين. يعمل التوزيع الطبيعي على شكل منحنى جرس عند رسمه على طول محور واحد وله مساحة تحته تساوي 1. ما هو الانحدار اللوجستي؟
الانحدار اللوجستي هو أسلوب إحصائي للعثور على أفضل نموذج مناسب لمجموعة معينة من البيانات المرصودة. على سبيل المثال، يمكنه التنبؤ باحتمالية وقوع حدث ما، مثل ما إذا كان العميل سيشتري منتجك أم لا.
تتمثل الفكرة الرئيسية وراء الانحدار اللوجستي في العثور على أفضل نموذج مناسب لمجموعة البيانات الخاصة بك، وتحديد عدد المتغيرات اللازمة لوصف بياناتك. يعتمد النموذج الذي تختاره على مدى تعقيد مجموعة البيانات الخاصة بك ومدى تعقيدها لتتمكن من إجراء تنبؤات موثوقة.
