مقالات

8.2: مقاييس المركز - الرياضيات


8.2: مقاييس المركز - الرياضيات

مقاييس المركز: المتوسط ​​والمتوسط ​​والوضع

تخبرنا مقاييس المركز عمومًا عن الوسط أو المركز للتوزيع. هم الوسيط والوسيط والوضع. يلعب كل منها دورًا مفيدًا في الإحصاء.

يتم حساب المتوسط ​​، أو المتوسط ​​الحسابي ، عن طريق إضافة جميع قيم البيانات والقسمة على عدد القيم. رمزيًا ، يتم التعبير عن هذا كـ، أينهو الرمز الإحصائي للمتوسط ​​، هو مجموع قيم البيانات ، و ن هو عدد القيم.

على سبيل المثال ، تحصل على قيم البيانات التالية: 3 ، 7 ، 8 ، 11 ، 11. لحساب المتوسط ​​، أضف القيم أولاً: 3 + 7 + 8 + 11 + 11 = 40. ثم اقسم على عدد القيم ، ن، وهي 5. من الصيغة لدينا:. وهكذا ، يعني= 8.

عند وضع أي مجموعة من الأرقام بترتيب رقمي ، يكون الوسيط هو القيمة الموجودة في وسط من المجموعة المرتبة. نصف الأرقام في المجموعة أعلى من المتوسط ​​والنصف الآخر أقل من المتوسط.

بالنسبة لمجموعة البيانات 3 ، 7 ، 8 ، 11 ، 11 ، لاحظ أن قيم البيانات الخمس مرتبة بالفعل بالترتيب. الآن اختر ببساطة الرقم الأوسط ، وهو 8 هذا هو الوسيط. توجد قيمتا بيانات أعلاها وقيمتا بيانات تحتها.

فكر الآن فيما سيحدث إذا كانت لدينا مجموعة بيانات أخرى: 2 ، 6 ، 8 ، 9 ، 14 ، 16. لا توجد قيمة بيانات تمثل الرقم الأوسط بالضبط. في هذه الحالة ، نختار العددين الأوسطين ونحدد متوسطهما لتحديد الوسيط: 2 ، 6 ، 8 ، 9 ، 14 ، 16. الوسيط هو متوسط ​​8 و 9 ، وبالتالي ، الوسيط هو 8.5.

يمكننا تلخيص المثالين أعلاه من خلال ملاحظة أنه إذا كان لديك مجموعة بيانات تحتوي على عدد فردي من قيم البيانات ، فإن القيمة الوسطى للمجموعة المرتبة هي الوسيط. ولكن إذا كانت لديك مجموعة بيانات تحتوي على عدد زوجي من قيم البيانات ، فيجب عليك اختيار القيمتين الوسطيتين والعثور على متوسطهما لتحديد الوسيط.

الوضع هو قيمة البيانات الأكثر تكرارا. بالنسبة لمجموعة البيانات 3 و 7 و 8 و 11 و 11 ، يكون الوضع 11 ، لأن القيمة 11 تحدث مرتين ، بينما تحدث جميع القيم الأخرى مرة واحدة فقط. بالنسبة لمجموعة بيانات مثل 2 ، 6 ، 8 ، 9 ، 14 ، 16 ، نقول إنه لا يوجد وضع ، لأنه لا توجد قيمة بيانات تحدث أكثر من أي قيمة بيانات أخرى.

لربط هذا مقاييس المركز: المتوسط ​​والمتوسط ​​والوضع الصفحة ، انسخ الكود التالي إلى موقعك:


الرياضيات التوضيحية للصف السابع ، الوحدة الثامنة ، الدرس الخامس عشر: تقدير القياسات السكانية للمركز

دعونا نستخدم عينات لتقدير مقاييس المركز للسكان.

الدرس 15 ملخص

بعض المجموعات السكانية لديها تقلبات أكبر من غيرها. على سبيل المثال ، نتوقع تباينًا أكبر في أوزان الكلاب في حديقة الكلاب مقارنةً بلقاء البيجل.

يشير انخفاض MAD إلى وجود تباين أقل في أوزان البيجل. نتوقع أن متوسط ​​الوزن من عينة تم اختيارها عشوائيًا من مجموعة من البيجل سيوفر تقديرًا أكثر دقة لمتوسط ​​الوزن لجميع البيجل من عينة من نفس الحجم من الكلاب في حديقة الكلاب.

بشكل عام ، من المرجح أن يكون لعينة ذات حجم مشابه من مجتمع ذي تباين أقل متوسط ​​قريب من متوسط ​​المحتوى.

الدرس 15.1 وصف المركز

هل ستستخدم الوسيط أم الوسيط لوصف مركز كل مجموعة بيانات؟ اشرح أسبابك.

الدرس 15.2 ثلاثة عروض تليفزيونية مختلفة

فيما يلي الأعمار (بالسنوات) لعينة عشوائية من 10 مشاهدين لثلاثة برامج تلفزيونية مختلفة. تحمل العروض عنوان ، "تجارب علمية يمكنك القيام بها" ، و "تعلم القراءة" ، و "معلومات عن لعبة Trivia the Game Show".

  1. احسب متوسط ​​إحدى العينات. تأكد من أن كل شخص في مجموعتك يعمل مع عينة مختلفة. سجل الإجابات لجميع العينات الثلاثة.
  2. ما هو العرض الذي تعتقد أن كل عينة تمثله؟ اشرح أسبابك.

الدرس 15.3 من يشاهد ماذا؟

فيما يلي ثلاث عينات أخرى من أعمار المشاهدين تم جمعها لنفس البرامج التلفزيونية الثلاثة.

  1. احسب متوسط ​​إحدى هذه العينات. سجل كل الإجابات الثلاثة.
  2. ما هو العرض الذي تعتقد أن كل من هذه العينات يمثله؟ اشرح أسبابك.
  3. لكل عرض ، قم بتقدير متوسط ​​العمر لجميع مشاهدي العرض و rsquos.
  4. احسب متوسط ​​الانحراف المطلق لإحدى عينات العروض. تأكد من أن كل شخص في مجموعتك يعمل مع عينة مختلفة. سجل كل الإجابات الثلاثة.
  5. ماذا تخبرك القيم المختلفة لـ MAD عن كل مجموعة؟
  6. معلن لديه إعلان تجاري يجذب الأشخاص الذين تتراوح أعمارهم بين 15 و 16 عامًا. بناءً على هذه العينات ، هل أي من هذه العروض مناسب بشكل جيد لهذا الإعلان التجاري؟ اشرح أو أظهر أسبابك.

الدرس 15.4 مراجعات الفيلم

يحتوي موقع تصنيف الأفلام على تصنيف العديد من الأشخاص لفيلم جديد على مقياس من 0 إلى 100. إليك مخطط نقطي يعرض عينة عشوائية من 20 من هذه المراجعات.

  1. هل سيكون الوسيط أم الوسيط مقياسًا أفضل لمركز هذه البيانات؟ اشرح أسبابك.
  2. استخدم العينة لتقدير مقياس المركز الذي اخترته لجميع المراجعات.
  3. بالنسبة لهذه العينة ، متوسط ​​الانحراف المطلق هو 19.6 ، والمدى الربيعي هو 15. أي من هذه القيم مرتبطة بمقياس المركز الذي اخترته؟
  4. يجب أن يكون للأفلام متوسط ​​تقييم 75 أو أكثر من جميع المراجعات على موقع الويب ليتم النظر فيها للحصول على جائزة. هل تعتقد أن هذا الفيلم سيترشح للجائزة؟ استخدم مقياس المركز وقياس التباين الذي اخترته لتبرير إجابتك.

هل أنت مستعد لأكثر من ذلك؟

قدّر درجات الحرارة النموذجية في الولايات المتحدة اليوم من خلال البحث عن درجات الحرارة الحالية في عدة أماكن في جميع أنحاء البلاد. استخدم البيانات التي تجمعها لاتخاذ قرار بشأن المقياس المناسب للمركز للبلد ، وحساب مقياس التباين ذي الصلة لعينتك.

الدرس 15 مشاكل الممارسة

  1. تم اختيار عينة عشوائية من 15 عنصر.
    بالنسبة لمجموعة البيانات هذه ، هل المتوسط ​​أم الوسيط هو مقياس أفضل للمركز؟ اشرح أسبابك.
  2. يريد مطور ألعاب الفيديو معرفة المدة التي يستغرقها الأشخاص للانتهاء من لعب لعبتهم الجديدة. قاموا بمسح عينة عشوائية من 13 لاعباً وسألوا عن المدة التي استغرقوها (بالدقائق).
    أ. قدّر متوسط ​​الوقت الذي سيستغرقه جميع اللاعبين لإنهاء هذه اللعبة.
    ب. أوجد المدى الربيعي لهذه العينة.
  3. يريد هان وبريا معرفة متوسط ​​ارتفاع 30 طالبًا في فصل الرقص. يختار كل منهم عينة عشوائية من 5 طلاب.
  • متوسط ​​ارتفاع عينة هان 59 بوصة.
  • متوسط ​​ارتفاع عينة بريا هو 61 بوصة.
    هل يفاجئك اختلاف وسيلتي العينة؟ هل السكان يعني مختلف؟ اشرح أسبابك.
  1. أخذ كل من كلير وبريا عينة عشوائية من 25 طالبًا في مدرستهم.
  • سألت كلير كل طالب في عينتها عن مقدار الوقت الذي يقضونه في أداء الواجب المنزلي كل ليلة. كان متوسط ​​العينة 1.2 ساعة وكان MAD 0.6 ساعة.
  • سألت بريا كل طالب في عينتها عن مقدار الوقت الذي يقضونه في مشاهدة التلفزيون كل ليلة. كان متوسط ​​العينة ساعتين وكان MAD 1.3 ساعة.
    أ. في مدرستهم ، هل تعتقد أن هناك المزيد من التباين في مقدار الوقت الذي يقضيه الطلاب في أداء واجباتهم المدرسية أو مشاهدة التلفزيون؟ اشرح أسبابك.
    ب. تقدر كلير أن الطلاب في مدرستها يقضون ما معدله 1.2 ساعة كل ليلة في أداء واجباتهم المدرسية. تقدر بريا أن الطلاب في مدرستها يقضون في المتوسط ​​ساعتين كل ليلة في مشاهدة التلفزيون. أي من هذين التقديرين من المرجح أن يكون أقرب إلى القيمة المتوسطة الفعلية لجميع الطلاب في مدرستهم؟ اشرح أسبابك.

يمكن تنزيل منهج الرياضيات من Open Up Resources مجانًا من موقع Open Up Resources على الويب ومتاح أيضًا من Illustrative Mathematics.

جرب آلة حاسبة Mathway المجانية وحل المشكلات أدناه لممارسة موضوعات الرياضيات المختلفة. جرب الأمثلة المعطاة ، أو اكتب مشكلتك الخاصة وتحقق من إجابتك مع شرح خطوة بخطوة.

نرحب بملاحظاتكم وتعليقاتكم وأسئلتكم حول هذا الموقع أو الصفحة. يرجى إرسال ملاحظاتك أو استفساراتك عبر صفحة الملاحظات الخاصة بنا.


8.2: مقاييس المركز - الرياضيات

لنبدأ & # 8217s بمحاولة العثور على أكثر قيمة & # 8220typical & # 8221 لمجموعة البيانات.

لاحظ أننا استخدمنا للتو الكلمة & # 8220typical & # 8221 على الرغم من أنه في كثير من الحالات قد تفكر في استخدام الكلمة & # 8220average. & # 8221 نحتاج إلى توخي الحذر عند استخدام الكلمة & # 8220average & # 8221 لأنها تعني أشياء مختلفة باختلاف الناس في سياقات مختلفة. أحد الاستخدامات الأكثر شيوعًا لكلمة & # 8220average & # 8221 هو ما يسميه علماء الرياضيات والإحصائيون المتوسط ​​الحسابي، أو مجرد قديم يعني لفترة قصيرة. & # 8220 يبدو المتوسط ​​الحسابي & # 8221 خياليًا إلى حد ما ، لكن من المحتمل أنك قمت بحساب المتوسط ​​عدة مرات دون أن تدرك أن المتوسط ​​هو ما يعتقده معظم الناس عند استخدامهم للكلمة & # 8220average. & # 8221

ال يعني من مجموعة البيانات هو مجموع قيم البيانات مقسومًا على عدد القيم.

أمثلة

كانت درجات امتحان مارسي لآخر صف لها في الرياضيات هي 79 ، و 86 ، و 82 ، و 94. فماذا سيكون معنى هذه القيم؟

عدد تمريرات الهبوط (TD) التي ألقاها كل فريق من 31 فريقًا في الدوري الوطني لكرة القدم في موسم 2000 موضحة أدناه.

37 33 33 32 29 28 28 23 22 22 22 21 21 21 20

20 19 19 18 18 18 18 16 15 14 14 14 12 12 9 6

ما هو متوسط ​​عدد تصاريح TD؟

بجمع هذه القيم ، نحصل على 634 TDs إجمالاً. بالقسمة على 31 ، عدد قيم البيانات ، نحصل على 634/31 = 20.4516. سيكون من المناسب تقريب هذا إلى 20.5.

سيكون من الأصح بالنسبة لنا أن نبلغ أن "متوسط ​​عدد تمريرات الهبوط التي تم إلقاؤها في دوري كرة القدم الأمريكية في موسم 2000 كان 20.5 تمريرة" ، ولكن ليس من غير المألوف رؤية كلمة "متوسط" غير الرسمية المستخدمة بدلاً من "يعني . "

يتم وصف كلا المثالين بمزيد من التفصيل في الفيديو التالي.

جربها

كان سعر جرة زبدة الفول السوداني في 5 متاجر 3.29 دولارًا و 3.59 دولارًا و 3.79 دولارًا و 3.75 دولارًا أمريكيًا و 3.99 دولارًا أمريكيًا. ابحث عن السعر المتوسط.

أمثلة

يُطلب من العائلات المائة في حي معين دخل الأسرة السنوي إلى أقرب 5 آلاف دولار. تم تلخيص النتائج في جدول التردد أدناه.

الدخل (بآلاف الدولارات) تكرر
15 6
20 8
25 11
30 17
35 19
40 20
45 12
50 7

ما هو متوسط ​​الدخل في هذا الحي؟

قد يصبح حساب المتوسط ​​يدويًا أمرًا صعبًا إذا حاولنا كتابة جميع القيم المائة:

يمكننا حساب ذلك بسهولة أكبر بملاحظة أن إضافة 15 لنفسه ست مرات هي نفسها = 90. وباستخدام هذا التبسيط ، نحصل على

بلغ متوسط ​​دخل الأسرة في عينتنا 33.9 ألف دولار (33900 دولار).

امتدادًا للمثال الأخير ، افترض أن عائلة جديدة انتقلت إلى مثال الحي الذي يبلغ دخل الأسرة 5 ملايين دولار (5000 ألف دولار).

ما هو الوسيلة الجديدة لدخل هذا الحي و # 8217؟

بإضافة هذا إلى نموذجنا ، فإن وسيلتنا الآن هي:

يتم شرح كلا الحالتين بشكل أكبر في هذا الفيديو.

في حين أن 83.1 ألف دولار (83،069 دولارًا أمريكيًا) هو متوسط ​​دخل الأسرة الصحيح ، إلا أنه لم يعد يمثل قيمة "نموذجية".

تخيل قيم البيانات على مقياس أرجوحة أو ميزان. المتوسط ​​هو القيمة التي تحافظ على توازن البيانات ، كما في الصورة أدناه.

إذا قمنا بعمل رسم بياني لبيانات الأسرة الخاصة بنا ، فإن قيمة البيانات البالغة 5 ملايين دولار بعيدة جدًا إلى اليمين بحيث يجب تعديل المتوسط ​​للحفاظ على توازن الأمور.

لهذا السبب ، عند العمل مع البيانات التي تحتوي على القيم المتطرفة - قيم بعيدة عن التجميع الأساسي - من الشائع استخدام مقياس مختلف للمركز ، وهو الوسيط.

الوسيط

ال الوسيط مجموعة البيانات هي القيمة الموجودة في المنتصف عندما تكون البيانات مرتبة.

  • للعثور على الوسيط ، ابدأ بإدراج البيانات بالترتيب من الأصغر إلى الأكبر أو الأكبر إلى الأصغر.
  • إذا كان عدد قيم البيانات ، ن، هو فردي ، فالوسيط هو قيمة البيانات المتوسطة. يمكن إيجاد هذه القيمة بالتقريب ن/ 2 حتى العدد الصحيح التالي.
  • إذا كان عدد قيم البيانات زوجيًا ، فلا توجد قيمة متوسطة واحدة ، لذلك نجد متوسط ​​القيمتين الوسطيتين (القيمتين) ن/2 و ن/2 + 1)

مثال

بالعودة إلى بيانات هبوط كرة القدم ، سنبدأ بإدراج البيانات بالترتيب. لحسن الحظ ، كان بالفعل بترتيب تنازلي ، لذا يمكننا العمل معه دون الحاجة إلى إعادة ترتيبه أولاً.

37 33 33 32 29 28 28 23 22 22 22 21 21 21 20

20 19 19 18 18 18 18 16 15 14 14 14 12 12 9 6

ما هو متوسط ​​قيمة TD؟

أوجد متوسط ​​درجات الاختبار هذه: 5 10 8 6 4 8 2 5 7 7

نبدأ بإدراج البيانات بالترتيب: 2 4 5 5 6 7 7 8 8 10

نظرًا لوجود 10 قيم بيانات ، رقم زوجي ، فلا يوجد رقم متوسط ​​واحد. إذن نجد متوسط ​​العددين الأوسطين ، 6 و 7 ، ونحصل على (6 + 7) / 2 = 6.5.

كان متوسط ​​درجة الاختبار 6.5.

تعرف على المزيد حول هذه الأمثلة المتوسطة في هذا الفيديو.

جربها

كان سعر جرة زبدة الفول السوداني في 5 متاجر 3.29 دولارًا و 3.59 دولارًا و 3.79 دولارًا و 3.75 دولارًا أمريكيًا و 3.99 دولارًا أمريكيًا. ابحث عن السعر المتوسط.

مثال

لنعد الآن إلى بيانات دخل الأسرة الأصلية

الدخل (بآلاف الدولارات) تكرر
15 6
20 8
25 11
30 17
35 19
40 20
45 12
50 7

ما هو متوسط ​​دخل الأسرة في هذا الحي و # 8217؟

هنا لدينا 100 قيمة بيانات. إذا لم نكن نعرف ذلك بالفعل ، فيمكننا إيجاده بإضافة الترددات. نظرًا لأن 100 عدد زوجي ، فنحن بحاجة إلى إيجاد متوسط ​​قيم البيانات الوسطى & # 8211 قيم البيانات 50 و 51. للعثور على هؤلاء ، نبدأ في العد من الأسفل:

هناك 6 قيم بيانات بقيمة 15 دولارًا أمريكيًا ، لذا فإن القيم من 1 إلى 6 هي 15 ألف دولار

قيم البيانات الثمانية التالية هي 20 دولارًا ، لذا فإن القيم من 7 إلى (6 + 8) = 14 هي 20 ألف دولار

قيم البيانات الـ 11 التالية هي 25 دولارًا ، لذا فإن القيم من 15 إلى (14 + 11) = 25 هي 25 ألف دولار

قيم البيانات الـ 17 التالية هي 30 دولارًا ، لذا فإن القيم من 26 إلى (25 + 17) = 42 هي 30 ألف دولار

قيم البيانات الـ 19 التالية هي 35 دولارًا ، لذا فإن القيم من 43 إلى (42 + 19) = 61 هي 35 ألف دولار

من هذا يمكننا معرفة أن القيمتين 50 و 51 ستكون 35 ألف دولار ، ومتوسط ​​هاتين القيمتين هو 35 ألف دولار. متوسط ​​الدخل في هذا الحي 35 ألف دولار.

إذا أضفنا الجار الجديد بدخل أسرة يبلغ 5 ملايين دولار ، فسيكون هناك 101 قيمة بيانات ، وستكون القيمة 51 هي الوسيط. كما اكتشفنا في المثال الأخير ، القيمة 51 هي 35 ألف دولار. لاحظ أن الجار الجديد لم يؤثر على الوسيط في هذه الحالة. لا يتأثر الوسيط بالقيم المتطرفة بقدر تأثير المتوسط.

شاهد المزيد عن متوسط ​​دخل الأسرة لهذا الحي و # 8217 هنا.

بالإضافة إلى المتوسط ​​والوسيط ، هناك قياس واحد مشترك آخر لقيمة & # 8220typical & # 8221 لمجموعة البيانات: الوضع.

ال الوضع هو عنصر مجموعة البيانات الذي يحدث بشكل متكرر.

الوضع عديم الفائدة إلى حد ما مع بيانات مثل الأوزان أو الارتفاعات حيث يوجد عدد كبير من القيم الممكنة. يتم استخدام الوضع الأكثر شيوعًا للبيانات الفئوية ، والتي لا يمكن حساب الوسيط والمتوسط ​​لها.

مثال

في استطلاع لون السيارة الذي أجريناه سابقًا في هذا القسم ، قمنا بجمع البيانات

اللون تكرر
أزرق 3
أخضر 5
أحمر 4
أبيض 3
أسود 2
رمادي 3

يتم شرح الوضع في هذا المثال من خلال الفيديو هنا.

من الممكن أن يكون لمجموعة البيانات أكثر من وضع واحد إذا كان للعديد من الفئات نفس التردد ، أو لا توجد أوضاع إذا كانت كل فئة تحدث مرة واحدة فقط.


8.2: مقاييس المركز - الرياضيات

لم تقم بتسجيل الدخول إلى حساب Scholastic الخاص بك من قبل؟

المعلمين ، ليسوا مشتركين بعد؟

يحصل المشتركون على حق الوصول إلى الموقع والمجلة المطبوعة.

أنت تقوم بإعادة التوجيه إلى صفحة المصادقة الخاصة بـ Scholastic.

تسجيل الدخول إلى حسابك

لم تقم بتسجيل الدخول إلى حساب Scholastic الخاص بك من قبل؟

المعلمين ، ليسوا مشتركين بعد؟

يحصل المشتركون على حق الوصول إلى الموقع والمجلة المطبوعة.

أنت تقوم بإعادة التوجيه إلى صفحة المصادقة الخاصة بـ Scholastic.

تسجيل الدخول إلى حسابك

لم تقم بتسجيل الدخول إلى حساب Scholastic الخاص بك من قبل؟

المعلمين ، ليسوا مشتركين بعد؟

يحصل المشتركون على حق الوصول إلى الموقع والمجلة المطبوعة.

أنت تقوم بإعادة التوجيه إلى صفحة المصادقة الخاصة بـ Scholastic.

تسجيل الدخول إلى حسابك

لم تقم بتسجيل الدخول إلى حساب Scholastic الخاص بك من قبل؟

المعلمين ، ليسوا مشتركين بعد؟

يحصل المشتركون على حق الوصول إلى الموقع والمجلة المطبوعة.

أنت تقوم بإعادة التوجيه إلى صفحة المصادقة الخاصة بـ Scholastic.

احجز مجلاتك لعام 2018-2019

الرياضيات المدرسية يبني الثقة في الرياضيات من خلال روابط مثيرة (وذات مغزى) لمواضيع العالم الحقيقي! يتميز هذا المورد الجذاب للصفوف من 6 إلى 9:


8.2: مقاييس المركز - الرياضيات

أ المعلمة السكان هي خاصية أو مقياس تم الحصول عليه باستخدام جميع قيم البيانات في المجتمع.

أ عينة إحصائية هي خاصية أو مقياس تم الحصول عليه باستخدام قيم البيانات من عينة.

تحاول المعلمات والإحصاءات التي نهتم بها أولاً تحديد "المركز" (أي الموقع) و "الانتشار" (أي التباين) لمجموعة البيانات. لاحظ أن هناك عدة مقاييس مختلفة للمركز والعديد من مقاييس الانتشار المختلفة التي يمكن للمرء استخدامها - يجب أن يكون المرء حريصًا على استخدام المقاييس المناسبة نظرًا لشكل توزيع البيانات ووجود القيم القصوى وطبيعة ومستوى البيانات المعنية.

عندما نفكر في مقاييس مختلفة للمركز والانتشار ، تذكر أننا نريد حقًا معرفة مركز وانتشار السكان المعنيين (أي ، معلمة) - ولكن عادةً ما يكون لدينا عينة من البيانات فقط.

على هذا النحو ، نحسب إحصائيات العينة لتقدير هذه المعلمات السكانية.

شكل التوزيع

يمكننا تمييز شكل مجموعة البيانات بالنظر إلى المدرج التكراري الخاص بها.

أولاً ، إذا بدا أن قيم البيانات تتراكم في "كومة" واحدة ، فإننا نقول إن التوزيع هو أحادي. إذا ظهر أن هناك اثنين من "التلال" ، فإننا نقول التوزيع ثنائي النسق. إذا كان هناك أكثر من تلال ، نقول التوزيع متعدد الوسائط.

ثانيًا ، نركز على ما إذا كان التوزيع متماثل، أو إذا كان لها "ذيل" أطول من جانب أو آخر. في حالة وجود "ذيل" أطول ، نقول التوزيع منحرف في اتجاه الذيل الأطول. في الحالة التي يرتبط فيها الذيل الأطول بقيم بيانات أكبر ، نقول إن التوزيع هو منحرفة لليمين أو (انحراف إيجابي). في الحالة التي يرتبط فيها الذيل الأطول بقيم أصغر (أو أكثر سلبية) ، نقول إن التوزيع هو منحرف اليسار أو (سلبيا منحرف).

إذا كان التوزيع متماثلًا ، فسنحتاج غالبًا إلى التحقق مما إذا كان تقريبًا على شكل جرس، أو شكل مختلف. في حالة التوزيع حيث يكون كل مستطيل بنفس الارتفاع تقريبًا ، نقول أن لدينا أ زي موحد توزيع.

يقدم الرسم أدناه بعض الأمثلة على أشكال التوزيع المذكورة أعلاه.

مقاييس المركز

بالنسبة إلى بيانات مستوى الفاصل الزمني أو النسبة ، يكون أحد مقاييس المركز هو يعني. ال متوسط ​​التعداد يُرمز له بـ $ mu $ ، بينما متوسط ​​العينة المقصود لتقدير يتم الإشارة إليه بواسطة $ overline$. يتم حساب كلا القيمتين بطريقة متشابهة جدًا. بافتراض أن عدد السكان حجمه $ N $ ، وحجم العينة $ n $ ، و $ x $ يمتد عبر جميع قيم البيانات المتاحة في المجتمع أو العينة ، حسب الاقتضاء ، نجد هذه الوسائل عن طريق حساب $ mu = frac < مجموع x> quad textrm <و> quad overline = فارك < مجموع س>$

ال الوسيط، يُشار إليها بـ $ Q_2 $ (أو med) هي القيمة الوسطى لمجموعة البيانات عند كتابتها بالترتيب. في حالة وجود عدد زوجي من قيم البيانات (وبالتالي لا يوجد وسط دقيق) ، فهو متوسط ​​قيم البيانات الوسطى. لا يتأثر بوجود قيم قصوى في مجموعة البيانات. على عكس المتوسط ​​، يمكن أحيانًا أن يقترح الخنجر قيمة مركزية للبيانات الترتيبية.

& خنجر: يمكن للمرء سرد البيانات الترتيبية "بالترتيب" والعثور على القيمة في المنتصف عندما يكون هناك عدد إجمالي فردي من القيم. ومع ذلك ، عندما يكون هناك عدد زوجي من القيم ، يكون هناك تعقيد - لا يمكننا متوسط ​​قيمتين ترتيبيتين كما يمكننا مع قيم النسبة أو على مستوى الفاصل الزمني للعثور على "قيمة متوسطة". على سبيل المثال ، افترض أن بيانات أحد الأشخاص تضمنت رتبًا لبطاقات البوكر: $ A ، 7،7،10 ، J ، Q ، Q ، K ، K ، K $. الرتبتان المتوسطتان هما جاك (ي) وملكة (س). ماذا سيكون متوسطهم؟ نظرًا لصعوبة الإجابة على هذا السؤال ، تشير بعض النصوص إلى أنه بالنسبة لقائمة متساوية الطول من البيانات الترتيبية ، يجب على المرء بدلاً من ذلك اختيار القيمة الأدنى من القيمتين الوسطيتين ليكون الوسيط.

ال الوضع هي قيمة البيانات الأكثر شيوعًا في المجتمع أو العينة. يمكن أن يكون هناك أكثر من وضع واحد ، على الرغم من أنه في حالة عدم وجود قيم بيانات متكررة ، نقول إنه لا يوجد وضع. يمكن استخدام الأنماط حتى بالنسبة للبيانات الاسمية.

ال المدى المتوسط هو مجرد متوسط ​​قيم البيانات الأعلى والأدنى. على الرغم من سهولة فهمه ، إلا أنه يتأثر بشدة بالقيم القصوى في مجموعة البيانات ، ولا يجد مركز التوزيع بشكل موثوق.

مقاييس الانتشار

بالإضافة إلى معرفة مكان المركز لتوزيع معين ، غالبًا ما نرغب في معرفة كيفية "انتشار" التوزيع - وهذا يعطينا مقياسًا لتغير القيم المأخوذة من هذا التوزيع. يوضح الرسم البياني أدناه الشكل العام لثلاثة توزيعات أحادية الوسائط متماثلة بمقاييس متطابقة للمركز ، ولكن بمقادير مختلفة جدًا من "الانتشار".

مثلما كانت هناك مقاييس متعددة للمركز ، هناك مقاييس متعددة للانتشار - لكل منها بعض المزايا في مواقف معينة وعيوب في حالات أخرى:

ال نطاق هو الفرق بين أعلى وأدنى قيم للتوزيع من الناحية الفنية ، على الرغم من أنه يتم الإبلاغ عنه غالبًا عن طريق سرد الحد الأدنى والحد الأقصى للقيم المرئية. يتأثر بشدة بالقيم القصوى الموجودة في التوزيع.

يتم إعطاء مقياس آخر للانتشار بواسطة يعني الانحراف المطلق، وهو متوسط ​​المسافة إلى المتوسط. تذكر أن المسافة بين قيمتين $ x $ و $ y $ تُعطى بالقيمة المطلقة للاختلاف بينهما $ | x - y | $ ، لذا فإن المسافة بين القيمة $ x $ ومتوسط ​​السكان $ mu $ ستكون يكون $ | x - mu | $. لإيجاد متوسط ​​هذه المسافة ، نجمع عدد السكان ونقسم على عدد الأشياء في المجتمع ، $ N $: $ MAD = frac < sum | x - mu |>على الرغم من سهولة التعبير عنها ، فإن متوسط ​​الانحراف المطلق يخلق بعض المشكلات بالنسبة لنا (لا يختلف بشكل رهيب عن كيفية إدخال قيمة مطلقة داخل دالة - كما تعلم أولئك الذين درسوا التفاضل والتكامل - يمكن أن يسبب مشاكل فيما يتعلق بالتفاضل ). بالإضافة إلى ذلك ، فإن إحصاء العينة المقابل هو مقدر متحيز لمتوسط ​​المجتمع للانحراف المطلق. هذا يعني أن القيمة المتوسطة لا تتفق مع السكان MAD.

عندما يكون المتوسط ​​هو أنسب مقياس للمركز ، فإن أنسب مقياس للانتشار هو الانحراف المعياري. يتم الحصول على هذا القياس بأخذ الجذر التربيعي لـ التباين - وهي في الأساس متوسط ​​المسافة التربيعية بين قيم السكان (أو قيم العينة) والمتوسط.

إن استخدام مربع المسافات بين هذه القيم والمتوسط ​​يتغلب على الصعوبات التي تقدمها القيمة المطلقة في متوسط ​​الانحراف المطلق ، على الرغم من أنه يبالغ في المساهمات في انتشار السكان بواسطة قيم بعيدة عن المتوسط.

بشكل عام ، ولأغراضنا ، فإن مزايا استخدام التباين والانحراف المعياري لقياس التباين والانتشار على متوسط ​​الانحراف المطلق تفوق بكثير العيوب.

مع وضع كل هذا في الاعتبار ، يتم الحصول على تباين المحتوى $ sigma ^ 2 $ والانحراف المعياري للمحتوى $ sigma $ بواسطة $ sigma ^ 2 = frac < sum (x- mu) ^ 2> quad textrm <و> quad sigma = sqrt < frac < sum (x- mu) ^ 2>> $ عند التعامل مع عينة ، يجب إجراء تعديل طفيف على المقامات في هذه الصيغ من أجل أن يكون $ s ^ 2 $ تقديرًا غير متحيز لمعامل المجتمع المقابل $ sigma ^ 2 $ (انظر تصحيح Bessel) ، كما هو مبين أدناه. $ s ^ 2 = frac < sum (x- overline)^2> quad textrm <و> quad s = sqrt < frac < sum (x- overline)^2>>$

عندما يكون الوسيط هو أنسب مقياس للمركز ، فإن النطاق الربيعي (أو IQR) هو أنسب مقياس للانتشار. عندما يتم فرز البيانات ، فإن معدل الذكاء هو ببساطة نطاق النصف الأوسط من البيانات. إذا كانت البيانات تحتوي على أرباع $ Q_1 و Q_2 و Q_3 و Q_4 $ (مع ملاحظة أن $ Q_2 $ هو الوسيط و $ Q_4 $ هو القيمة القصوى) ، فإن $ IQR = Q_3 - Q_1 $ على عكس النطاق نفسه ، فإن معدل الذكاء ليس كذلك يتأثر بسهولة بوجود قيم بيانات قصوى.

تحديد الانحراف الكبير

لاحظ أن وجود الانحراف (أو القيم المتطرفة) يمكن أن يؤثر على مكان وجود مقاييس المركز بالنسبة لبعضها البعض ، كما يوحي الرسم أدناه.

كما يمكن رؤيته ، عند وجود انحراف كبير ، ينتهي الأمر بالمتوسط ​​والوسيط في أماكن مختلفة. وبقلب هذا ، إذا كان المتوسط ​​والوسيط متباعدان بدرجة كافية ، يمكننا تحديد ما إذا كان الانحراف الملحوظ مهمًا.

تحقيقا لهذه الغاية، مؤشر الانحراف بيرسون, أنا، يتم تعريفه على أنه $ I = frac <3 ( overline- Q_2)>$ فيما يتعلق بما إذا كان المتوسط ​​والوسيط متباعدان بدرجة كافية أم لا (نسبة إلى انتشار التوزيع) ، نقول أنه إذا كان $ | I | ge 1 $ ، فإن مجموعة البيانات مشوهة بشكل ملحوظ.

تحديد القيم المتطرفة

ان الناشز هي قيمة بيانات بعيدة بشكل كبير عن الجسم الرئيسي لمجموعة البيانات. تذكر أنه عند حساب معدل الذكاء ، نقيس مدى النصف المركزي لمجموعة البيانات ، من $ Q_1 $ إلى $ Q_3 $. من المنطقي أنه إذا كانت قيمة البيانات بعيدة جدًا عن هذا الفاصل الزمني ، فيجب أن نسميها قيمة خارجية. بالطبع ، نتوقع أن تكون القيم بعيدة عن المركز (هنا ، $ Q_2 $) عندما يكون السبريد (هنا ، معدل الذكاء) كبيرًا ، وأقرب إلى المركز عندما يكون السبريد صغيرًا. مع وضع ذلك في الاعتبار ، نقول إن أي قيمة خارج الفترة التالية هي قيمة خارجية. $ [Q_1 - 1.5 مرة IQR ، Q_3 + 1.5 مرة IQR] $

قد يتساءل المرء من أين يأتي 1.5 دولار في الفترة المذكورة أعلاه - بول فيليمان ، خبير الإحصاء في جامعة كورنيل ، كان طالبًا لجون توكي ، الذي اخترع هذا الاختبار للقيم المتطرفة. تساءل عن نفس الشيء. عندما سأل Tukey ، "لماذا 1.5؟" ، أجاب Tukey ، "لأن 1 صغير جدًا و 2 كبير جدًا."


8.2: مقاييس المركز - الرياضيات

Lin، S.، & amp Huang، Y. (2014). تطوير وتطبيق نسخة صينية من المواقف القصيرة تجاه جرد الرياضيات. المجلة الدولية لتعليم العلوم والرياضيات، 14 (1) ، 193-216. دوى: 10.1007 / s10763-014-9563-8

تابيا ، إم ، مارش ، ج. (2000). المواقف تجاه أداة الرياضيات: تحقيق مع طلاب المدارس المتوسطة. ورقة مقدمة في الاجتماع السنوي لجمعية منتصف الجنوب للبحوث التربوية (Bowling Green ، KY ، 15-17 نوفمبر 2000).

تابيا ، م. (1996). المواقف تجاه أداة الرياضيات. ورقة مقدمة في الاجتماع السنوي لجمعية منتصف الجنوب للبحوث التربوية (توسكالوسا ، ألاباما ، 6-8 نوفمبر 1996)

استكشفت الدراسة مصداقية وصلاحية ترجمة ATMI إلى العربية ، وتم تقديمها لطلاب المدارس الإعدادية في الإمارات العربية المتحدة. أظهر التحليل أن نموذج العوامل الأربعة كان هو الأنسب بعد استخدام CFA (تحليل العوامل المؤكدة) مما يشير إلى أن النسخة المترجمة فعالة في البلدان الناطقة باللغة العربية. تم العثور على صلاحية التقارب ، التي تم تقييمها باستخدام الموثوقية المركبة ومتوسط ​​التباين ، من .56 إلى 0.88 وبالتالي تم إثبات الصلاحية.

حللت الدراسة موثوقية وصلاحية ATMI باستخدام تحليل العوامل المؤكدة ، مع إجراء المسح على 699 طالبًا في السنة السابعة والثامنة في جنوب أستراليا. كان معامل كرونباخ ألفا للمقياس العام (0.963) مما يشير إلى موثوقية عالية للمقياس. أيد المحلل المالي المعتمد (CFA) الهيكل الأصلي المترابط المكون من أربعة عوامل بناءً على عدة مؤشرات ملائمة. الأدلة التي تشير إلى أن ATMI مقياس قابل للتطبيق لقياس المواقف تجاه الرياضيات.

يي ليم ، إس.شابمان ، إي (2013). تطوير شكل قصير من المواقف تجاه جرد الرياضيات. دراسات تربوية في الرياضيات 82 145-164.

تم إنشاء نسخة مختصرة من ATMI (نظرًا لأن المؤلفين اقترحوا أن الأصل طويل جدًا / مؤرخ / تم تقييمه فقط مع العينات الغربية) وتم تحليل تحليلات العوامل المؤكدة ، والتي دعمت البنية الأصلية المكونة من أربعة عوامل. ومع ذلك ، تم العثور على بعض العوامل التي لها ارتباط كبير مع بعضها البعض ، لذلك تمت إزالة ثلاثة عوامل لتشكيل SHORT ATMI. كان للمسح الجديد ارتباط كبير بالأصل (r = 0.96) وتم إثبات الصلاحية من خلال الارتباط المتبادل بين المقاييس الفرعية. كان تحليل ألفا كرونباخ للاتساق الداخلي 0.97 بشكل عام. تمكن المشاركون أيضًا من إنهاء المقياس الجديد في أقل من 10 دقائق مما يجعل إدارة الموقع أكثر قابلية للتطبيق.


8.2: مقاييس المركز - الرياضيات

يتم توفير جميع المقالات المنشورة بواسطة MDPI على الفور في جميع أنحاء العالم بموجب ترخيص وصول مفتوح. لا يلزم الحصول على إذن خاص لإعادة استخدام كل أو جزء من المقالة المنشورة بواسطة MDPI ، بما في ذلك الأشكال والجداول. بالنسبة للمقالات المنشورة بموجب ترخيص Creative Common CC BY ذي الوصول المفتوح ، يمكن إعادة استخدام أي جزء من المقالة دون إذن بشرط الاستشهاد بالمقال الأصلي بوضوح.

تمثل الأوراق الرئيسية أكثر الأبحاث تقدمًا مع إمكانات كبيرة للتأثير الكبير في هذا المجال. يتم تقديم الأوراق الرئيسية بناءً على دعوة فردية أو توصية من قبل المحررين العلميين وتخضع لمراجعة الأقران قبل النشر.

يمكن أن تكون ورقة الميزات إما مقالة بحثية أصلية ، أو دراسة بحثية جديدة جوهرية غالبًا ما تتضمن العديد من التقنيات أو المناهج ، أو ورقة مراجعة شاملة مع تحديثات موجزة ودقيقة عن آخر التقدم في المجال الذي يراجع بشكل منهجي التطورات الأكثر إثارة في العلم. المؤلفات. يوفر هذا النوع من الأوراق نظرة عامة على الاتجاهات المستقبلية للبحث أو التطبيقات الممكنة.

تستند مقالات اختيار المحرر على توصيات المحررين العلميين لمجلات MDPI من جميع أنحاء العالم. يختار المحررون عددًا صغيرًا من المقالات المنشورة مؤخرًا في المجلة ويعتقدون أنها ستكون مثيرة للاهتمام بشكل خاص للمؤلفين أو مهمة في هذا المجال. الهدف هو تقديم لمحة سريعة عن بعض الأعمال الأكثر إثارة المنشورة في مجالات البحث المختلفة بالمجلة.


ما هو أفضل مقياس للميل المركزي للاستخدام؟

المتوسط ​​هو المقياس الأكثر استخدامًا للاتجاه المركزي لأنه يستخدم جميع القيم في مجموعة البيانات لمنحك متوسطًا.

بالنسبة إلى البيانات من التوزيعات المنحرفة ، يكون الوسيط أفضل من المتوسط ​​لأنه لا يتأثر بقيم كبيرة للغاية.

الوضع هو المقياس الوحيد الذي يمكنك استخدامه للبيانات الاسمية أو الفئوية التي لا يمكن طلبها.

الأسئلة المتداولة: الإحصائيات

في الإحصائيات ، النطاق هو انتشار بياناتك من أدنى قيمة إلى أعلى قيمة في التوزيع. إنه أبسط مقياس للتغير.

النطاق الربيعي هو أفضل مقياس للتباين للتوزيعات المنحرفة أو مجموعات البيانات ذات القيم المتطرفة. نظرًا لأنه يستند إلى القيم التي تأتي من النصف الأوسط للتوزيع ، فمن غير المحتمل أن يتأثر بالقيم المتطرفة.

الطريقتان الأكثر شيوعًا لحساب المدى بين الشرائح الربعية هما الطرق الحصرية والشاملة.

تستبعد الطريقة الحصرية الوسيط عند تحديد Q1 و Q3 ، بينما تتضمن الطريقة الشاملة الوسيط كقيمة في مجموعة البيانات في تحديد الربعية.

لكل طريقة من هذه الطرق ، ستحتاج إلى إجراءات مختلفة للعثور على الوسيط ، Q1 و Q3 اعتمادًا على ما إذا كان حجم العينة الخاص بك زوجيًا أو فرديًا. تعمل الطريقة الحصرية بشكل أفضل مع أحجام العينات ذات الأرقام الزوجية ، بينما تُستخدم الطريقة الشاملة غالبًا مع أحجام العينات ذات الأرقام الفردية.

بينما يمنحك النطاق انتشار مجموعة البيانات بأكملها ، يمنحك النطاق الربيعي انتشار النصف الأوسط لمجموعة البيانات.

التجانس ، أو تجانس الفروق ، هو افتراض وجود تباينات متساوية أو متشابهة في مجموعات مختلفة تتم مقارنتها.

هذا افتراض مهم للاختبارات الإحصائية البارامترية لأنها حساسة لأي اختلافات. تؤدي الفروق غير المتكافئة في العينات إلى نتائج اختبار منحازة ومنحرفة.

تستخدم الاختبارات الإحصائية مثل اختبارات التباين أو تحليل التباين (ANOVA) تباين العينة لتقييم الفروق بين المجموعات السكانية. يستخدمون تباينات العينات لتقييم ما إذا كانت المجموعات السكانية التي ينتمون إليها تختلف اختلافًا كبيرًا عن بعضها البعض.

التباين هو متوسط ​​الانحرافات التربيعية عن المتوسط ​​، بينما الانحراف المعياري هو الجذر التربيعي لهذا الرقم. يعكس كلا المقياسين التباين في التوزيع ، لكن وحداتهما تختلف:

  • يتم التعبير عن الانحراف المعياري بنفس الوحدات مثل القيم الأصلية (على سبيل المثال ، الدقائق أو الأمتار).
  • يتم التعبير عن التباين بوحدات أكبر بكثير (على سبيل المثال ، متر مربع).

على الرغم من صعوبة فهم وحدات التباين بشكل حدسي ، إلا أن التباين مهم في الاختبارات الإحصائية.

تخبرك القاعدة التجريبية ، أو القاعدة 68-95-99.7 ، أين تكمن معظم القيم في التوزيع الطبيعي:

  • حوالي 68٪ من القيم تقع ضمن انحراف معياري واحد عن المتوسط.
  • يقع حوالي 95٪ من القيم ضمن انحرافين معياريين عن المتوسط.
  • حوالي 99.7٪ من القيم تقع ضمن 3 انحرافات معيارية عن المتوسط.

The empirical rule is a quick way to get an overview of your data and check for any outliers or extreme values that don’t follow this pattern.

In a normal distribution, data is symmetrically distributed with no skew. Most values cluster around a central region, with values tapering off as they go further away from the center.

The measures of central tendency (mean, mode and median) are exactly the same in a normal distribution.

The standard deviation is the average amount of variability in your data set. It tells you, on average, how far each score lies from the mean.

In normal distributions, a high standard deviation means that values are generally far from the mean, while a low standard deviation indicates that values are clustered close to the mean.

No. Because the range formula subtracts the lowest number from the highest number, the range is always zero or a positive number.

  • If your data is numerical or quantitative, order the values from low to high.
  • If it is categorical, sort the values by group, in any order.

Then you simply need to identify the most frequently occurring value.

While central tendency tells you where most of your data points lie, variability summarizes how far apart your points from each other.

Data sets can have the same central tendency but different levels of variability or vice versa. Together, they give you a complete picture of your data.

Variability is most commonly measured with the following descriptive statistics:

  • Range: the difference between the highest and lowest values
  • Interquartile range: the range of the middle half of a distribution
  • Standard deviation: average distance from the mean
  • Variance: average of squared distances from the mean

Variability tells you how far apart points lie from each other and from the center of a distribution or a data set.

Variability is also referred to as spread, scatter or dispersion.

While interval and ratio data can both be categorized, ranked, and have equal spacing between adjacent values, only ratio scales have a true zero.

For example, temperature in Celsius or Fahrenheit is at an interval scale because zero is not the lowest possible temperature. In the Kelvin scale, a ratio scale, zero represents a total lack of thermal energy.

A critical value is the value of the test statistic which defines the upper and lower bounds of a confidence interval, or which defines the threshold of statistical significance in a statistical test. It describes how far from the mean of the distribution you have to go to cover a certain amount of the total variation in the data (i.e. 90%, 95%, 99%).

If you are constructing a 95% confidence interval and are using a threshold of statistical significance of ص = 0.05, then your critical value will be identical in both cases.

ال ر-distribution gives more probability to observations in the tails of the distribution than the standard normal distribution (a.k.a. the ض-distribution).

In this way, the ر-distribution is more conservative than the standard normal distribution: to reach the same level of confidence or statistical significance, you will need to include a wider range of the data.

أ ر-score (a.k.a. a ر-value) is equivalent to the number of standard deviations away from the mean of the ر-distribution.

ال ر-score is the test statistic used in ر-tests and regression tests. It can also be used to describe how far from the mean an observation is when the data follow a ر-distribution.

ال ر-distribution is a way of describing a set of observations where most observations fall close to the mean, and the rest of the observations make up the tails on either side. It is a type of normal distribution used for smaller sample sizes, where the variance in the data is unknown.

ال ر-distribution forms a bell curve when plotted on a graph. It can be described mathematically using the mean and the standard deviation.

In statistics, ordinal and nominal variables are both considered categorical variables.

Even though ordinal data can sometimes be numerical, not all mathematical operations can be performed on them.

  • The data can be classified into different categories within a variable.
  • The categories have a natural ranked order.

However, unlike with interval data, the distances between the categories are uneven or unknown.

Effect size tells you how meaningful the relationship between variables or the difference between groups is.

A large effect size means that a research finding has practical significance, while a small effect size indicates limited practical applications.

There are various ways to improve power:

  • Increase the potential effect size by manipulating your independent variable more strongly,
  • Increase sample size,
  • Increase the significance level (alpha),
  • Reduce measurement error by increasing the precision and accuracy of your measurement devices and procedures,
  • Use a one-tailed test instead of a two-tailed test for ر tests and ض tests.

A power analysis is a calculation that helps you determine a minimum sample size for your study. It’s made up of four main components. If you know or have estimates for any three of these, you can calculate the fourth component.

  • Statistical power: the likelihood that a test will detect an effect of a certain size if there is one, usually set at 80% or higher.
  • Sample size: the minimum number of observations needed to observe an effect of a certain size with a given power level.
  • Significance level (alpha): the maximum risk of rejecting a true null hypothesis that you are willing to take, usually set at 5%.
  • Expected effect size: a standardized way of expressing the magnitude of the expected result of your study, usually based on similar studies or a pilot study.

In statistical hypothesis testing, the null hypothesis of a test always predicts no effect or no relationship between variables, while the alternative hypothesis states your research prediction of an effect or relationship.

Statistical analysis is the main method for analyzing quantitative research data. It uses probabilities and models to test predictions about a population from sample data.

The risk of making a Type II error is inversely related to the statistical power of a test. Power is the extent to which a test can correctly detect a real effect when there is one.

To (indirectly) reduce the risk of a Type II error, you can increase the sample size or the significance level to increase statistical power.

The risk of making a Type I error is the significance level (or alpha) that you choose. That’s a value that you set at the beginning of your study to assess the statistical probability of obtaining your results (p value).

The significance level is usually set at 0.05 or 5%. This means that your results only have a 5% chance of occurring, or less, if the null hypothesis is actually true.

To reduce the Type I error probability, you can set a lower significance level.

In statistics, a Type I error means rejecting the null hypothesis when it’s actually true, while a Type II error means failing to reject the null hypothesis when it’s actually false.

In statistics, power refers to the likelihood of a hypothesis test detecting a true effect if there is one. A statistically powerful test is more likely to reject a false negative (a Type II error).

If you don’t ensure enough power in your study, you may not be able to detect a statistically significant result even when it has practical significance. Your study might not have the ability to answer your research question.

While statistical significance shows that an effect exists in a study, practical significance shows that the effect is large enough to be meaningful in the real world.

Statistical significance is denoted by ص-values whereas practical significance is represented by effect sizes.

There are dozens of measures of effect sizes. The most common effect sizes are Cohen’s د and Pearson’s r. Cohen’s د measures the size of the difference between two groups while Pearson’s r measures the strength of the relationship between two variables.

Nominal and ordinal are two of the four levels of measurement. Nominal level data can only be classified, while ordinal level data can be classified and ordered.

Using descriptive and inferential statistics, you can make two types of estimates about the population: point estimates and interval estimates.

  • أ point estimate is a single value estimate of a parameter. For instance, a sample mean is a point estimate of a population mean.
  • An interval estimate gives you a range of values where the parameter is expected to lie. A confidence interval is the most common type of interval estimate.

Both types of estimates are important for gathering a clear idea of where a parameter is likely to lie.

Standard error and standard deviation are both measures of variability. The standard deviation reflects variability within a sample, while the standard error estimates the variability across samples of a population.

The standard error of the mean, or simply standard error, indicates how different the population mean is likely to be from a sample mean. It tells you how much the sample mean would vary if you were to repeat a study using new samples from within a single population.

To figure out whether a given number is a parameter or a statistic, ask yourself the following:

  • Does the number describe a whole, complete population where every member can be reached for data collection?
  • Is it possible to collect data for this number from every member of the population in a reasonable time frame?

If the answer is yes to both questions, the number is likely to be a parameter. For small populations, data can be collected from the whole population and summarized in parameters.

If the answer is no to either of the questions, then the number is more likely to be a statistic.

The arithmetic mean is the most commonly used mean. It’s often simply called the mean or the average. But there are some other types of means you can calculate depending on your research purposes:

  • Weighted mean: some values contribute more to the mean than others.
  • Geometric mean: values are multiplied rather than summed up.
  • Harmonic mean: reciprocals of values are used instead of the values themselves.

You can find the mean, or average, of a data set in two simple steps:

  • Find the sum of the values by adding them all up.
  • Divide the sum by the number of values in the data set.

This method is the same whether you are dealing with sample or population data or positive or negative numbers.

The median is the most informative measure of central tendency for skewed distributions or distributions with outliers. For example, the median is often used as a measure of central tendency for income distributions, which are generally highly skewed.

Because the median only uses one or two values, it’s unaffected by extreme outliers or non-symmetric distributions of scores. In contrast, the mean and mode can vary in skewed distributions.

To find the median, first order your data. Then calculate the middle position based on n, the number of values in your data set.

  • إذا n is an odd number, the median lies at the position (n + 1) / 2.
  • إذا n is an even number, the median is the mean of the values at positions n / 2 and (n / 2) + 1.

A data set can often have no mode, one mode or more than one mode – it all depends on how many different values repeat most frequently.

  • without any mode
  • unimodal, with one mode,
  • bimodal, with two modes,
  • trimodal, with three modes, or
  • multimodal, with four or more modes.

Linear regression most often uses mean-square error (MSE) to calculate the error of the model. MSE is calculated by:

  1. measuring the distance of the observed y-values from the predicted y-values at each value of x
  2. squaring each of these distances
  3. calculating the mean of each of the squared distances.

Linear regression fits a line to the data by finding the regression coefficient that results in the smallest MSE.

The 3 main types of descriptive statistics concern the frequency distribution, central tendency, and variability of a dataset.

  • Distribution refers to the frequencies of different responses. give you the average for each response. show you the spread or dispersion of your dataset.

Descriptive statistics summarize the characteristics of a data set. Inferential statistics allow you to test a hypothesis or assess whether your data is generalizable to the broader population.

In statistics, model selection is a process researchers use to compare the relative value of different statistical models and determine which one is the best fit for the observed data.

The Akaike information criterion is one of the most common methods of model selection. AIC weights the ability of the model to predict the observed data against the number of parameters the model requires to reach that level of precision.

AIC model selection can help researchers find a model that explains the observed variation in their data while avoiding overfitting.

In statistics, a model is the collection of one or more independent variables and their predicted interactions that researchers use to try to explain variation in their dependent variable.

You can test a model using a statistical test. To compare how well different models fit your data, you can use Akaike’s information criterion for model selection.

The Akaike information criterion is calculated from the maximum log-likelihood of the model and the number of parameters (K) used to reach that likelihood. The AIC function is 2K – 2(log-likelihood).

Lower AIC values indicate a better-fit model, and a model with a delta-AIC (the difference between the two AIC values being compared) of more than -2 is considered significantly better than the model it is being compared to.

The Akaike information criterion is a mathematical test used to evaluate how well a model fits the data it is meant to describe. It penalizes models which use more independent variables (parameters) as a way to avoid over-fitting.

AIC is most often used to compare the relative goodness-of-fit among different models under consideration and to then choose the model that best fits the data.

A factorial ANOVA is any ANOVA that uses more than one categorical independent variable. A two-way ANOVA is a type of factorial ANOVA.

Some examples of factorial ANOVAs include:

  • Testing the combined effects of vaccination (vaccinated or not vaccinated) and health status (healthy or pre-existing condition) on the rate of flu infection in a population.
  • Testing the effects of marital status (married, single, divorced, widowed), job status (employed, self-employed, unemployed, retired), and family history (no family history, some family history) on the incidence of depression in a population.
  • Testing the effects of feed type (type A, B, or C) and barn crowding (not crowded, somewhat crowded, very crowded) on the final weight of chickens in a commercial farming operation.

In ANOVA, the null hypothesis is that there is no difference among group means. If any group differs significantly from the overall group mean, then the ANOVA will report a statistically significant result.

Significant differences among group means are calculated using the F statistic, which is the ratio of the mean sum of squares (the variance explained by the independent variable) to the mean square error (the variance left over).

If the F statistic is higher than the critical value (the value of F that corresponds with your alpha value, usually 0.05), then the difference among groups is deemed statistically significant.

The only difference between one-way and two-way ANOVA is the number of independent variables. A one-way ANOVA has one independent variable, while a two-way ANOVA has two.

    : Testing the relationship between shoe brand (Nike, Adidas, Saucony, Hoka) and race finish times in a marathon. : Testing the relationship between shoe brand (Nike, Adidas, Saucony, Hoka), runner age group (junior, senior, master’s), and race finishing times in a marathon.

All ANOVAs are designed to test for differences among three or more groups. If you are only testing for a difference between two groups, use a t-test instead.

Multiple linear regression is a regression model that estimates the relationship between a quantitative dependent variable and two or more independent variables using a straight line.

  • Univariate statistics summarize only one variable at a time.
  • Bivariate statistics compare two variables.
  • Multivariate statistics compare more than two variables.

Simple linear regression is a regression model that estimates the relationship between one independent variable and one dependent variable using a straight line. Both variables should be quantitative.

For example, the relationship between temperature and the expansion of mercury in a thermometer can be modeled using a straight line: as temperature increases, the mercury expands. This linear relationship is so certain that we can use mercury thermometers to measure temperature.

A regression model is a statistical model that estimates the relationship between one dependent variable and one or more independent variables using a line (or a plane in the case of two or more independent variables).

A regression model can be used when the dependent variable is quantitative, except in the case of logistic regression, where the dependent variable is binary.

A t-test should not be used to measure differences among more than two groups, because the error structure for a t-test will underestimate the actual error when many groups are being compared.

If you want to compare the means of several groups at once, it’s best to use another statistical test such as ANOVA or a post-hoc test.

أ one-sample t-test is used to compare a single population to a standard value (for example, to determine whether the average lifespan of a specific town is different from the country average).

أ paired t-test is used to compare a single population before and after some experimental intervention or at two different points in time (for example, measuring student performance on a test before and after being taught the material).

A t-test measures the difference in group means divided by the pooled standard error of the two group means.

In this way, it calculates a number (the t-value) illustrating the magnitude of the difference between the two group means being compared, and estimates the likelihood that this difference exists purely by chance (p-value).

Your choice of t-test depends on whether you are studying one group or two groups, and whether you care about the direction of the difference in group means.

If you are studying one group, use a paired t-test to compare the group mean over time or after an intervention, or use a one-sample t-test to compare the group mean to a standard value. If you are studying two groups, use a two-sample t-test.

If you want to know only whether a difference exists, use a two-tailed test. If you want to know if one group mean is greater or less than the other, use a left-tailed or right-tailed one-tailed test.

A t-test is a statistical test that compares the means of two samples. It is used in hypothesis testing, with a null hypothesis that the difference in group means is zero and an alternate hypothesis that the difference in group means is different from zero.

Statistical significance is a term used by researchers to state that it is unlikely their observations could have occurred under the null hypothesis of a statistical test. Significance is usually denoted by a ص-value, or probability value.

Statistical significance is arbitrary – it depends on the threshold, or alpha value, chosen by the researcher. The most common threshold is ص < 0.05, which means that the data is likely to occur less than 5% of the time under the null hypothesis.

When the ص-value falls below the chosen alpha value, then we say the result of the test is statistically significant.

A test statistic is a number calculated by a statistical test. It describes how far your observed data is from the null hypothesis of no relationship between variables or no difference among sample groups.

The test statistic tells you how different two or more groups are from the overall population mean, or how different a linear slope is from the slope predicted by a null hypothesis. Different test statistics are used in different statistical tests.

Some variables have fixed levels. For example, gender and ethnicity are always nominal level data because they cannot be ranked.

However, for other variables, you can choose the level of measurement. For example, income is a variable that can be recorded on an ordinal or a ratio scale:

  • At an ordinal level, you could create 5 income groupings and code the incomes that fall within them from 1–5.
  • At a ratio level, you would record exact numbers for income.

If you have a choice, the ratio level is always preferable because you can analyze data in more ways. The higher the level of measurement, the more precise your data is.

If your confidence interval for a difference between groups includes zero, that means that if you run your experiment again you have a good chance of finding no difference between groups.

If your confidence interval for a correlation or regression includes zero, that means that if you run your experiment again there is a good chance of finding no correlation in your data.

In both of these cases, you will also find a high ص-value when you run your statistical test, meaning that your results could have occurred under the null hypothesis of no relationship between variables or no difference between groups.

If you want to calculate a confidence interval around the mean of data that is not normally distributed, you have two choices:

  1. Find a distribution that matches the shape of your data and use that distribution to calculate the confidence interval.
  2. Perform a transformation on your data to make it fit a normal distribution, and then find the confidence interval for the transformed data.

The standard normal distribution, also called the ض-distribution, is a special normal distribution where the mean is 0 and the standard deviation is 1.

Any normal distribution can be converted into the standard normal distribution by turning the individual values into ض-scores. في ض-distribution, ض-scores tell you how many standard deviations away from the mean each value lies.

ال ض-score and ر-score (aka ض-value and ر-value) show how many standard deviations away from the mean of the distribution you are, assuming your data follow a ض-distribution or a ر-distribution.

These scores are used in statistical tests to show how far from the mean of the predicted distribution your statistical estimate is. If your test produces a ض-score of 2.5, this means that your estimate is 2.5 standard deviations from the predicted mean.

The predicted mean and distribution of your estimate are generated by the null hypothesis of the statistical test you are using. The more standard deviations away from the predicted mean your estimate is, the less likely it is that the estimate could have occurred under the null hypothesis.

To calculate the confidence interval, you need to know:

  • The point estimate you are constructing the confidence interval for
  • The critical values for the test statistic
  • The standard deviation of the sample
  • The sample size

Then you can plug these components into the confidence interval formula that corresponds to your data. The formula depends on the type of estimate (e.g. a mean or a proportion) and on the distribution of your data.

ال confidence level is the percentage of times you expect to get close to the same estimate if you run your experiment again or resample the population in the same way.

ال confidence interval is the actual upper and lower bounds of the estimate you expect to find at a given level of confidence.

For example, if you are estimating a 95% confidence interval around the mean proportion of female babies born every year based on a random sample of babies, you might find an upper bound of 0.56 and a lower bound of 0.48. These are the upper and lower bounds of the confidence interval. The confidence level is 95%.

This means that 95% of the time, you can expect your estimate to fall between 0.56 and 0.48.

Nominal data is data that can be labelled or classified into mutually exclusive categories within a variable. These categories cannot be ordered in a meaningful way.

For example, for the nominal variable of preferred mode of transportation, you may have the categories of car, bus, train, tram or bicycle.

The measures of central tendency you can use depends on the level of measurement of your data.

  • For a nominallevel, you can only use the mode to find the most frequent value.
  • For an ordinallevel or ranked data, you can also use the median to find the value in the middle of your data set.
  • ل فترةأو نسبةlevels, in addition to the mode and median, you can use the يعني to find the average value.

Measures of central tendency help you find the middle, or the average, of a data set.

The 3 most common measures of central tendency are the mean, median and mode.

  • ال mode is the most frequent value.
  • ال medianis the middle number in an ordered data set.
  • ال يعني is the sum of all values divided by the total number of values.
  1. the data are normally distributed
  2. the groups that are being compared have similar variance
  3. the data are independent

If your data does not meet these assumptions you might still be able to use a nonparametric statistical test, which have fewer requirements but also make weaker inferences.

The level at which you measure a variable determines how you can analyze your data.

Depending on the level of measurement, you can perform different descriptive statistics to get an overall summary of your data and inferential statistics to see if your results support or refute your hypothesis.

Levels of measurement tell you how precisely variables are recorded. There are 4 levels of measurement, which can be ranked from low to high:

  • Nominal: the data can only be categorized.
  • Ordinal: the data can be categorized and ranked.
  • Interval: the data can be categorized and ranked, and evenly spaced.
  • Ratio: the data can be categorized, ranked, evenly spaced and has a natural zero.

No. The ص-value only tells you how likely the data you have observed is to have occurred under the null hypothesis.

إذا كان ص-value is below your threshold of significance (typically ص < 0.05), then you can reject the null hypothesis, but this does not necessarily mean that your alternative hypothesis is true.

The alpha value, or the threshold for statistical significance, is arbitrary – which value you use depends on your field of study.

In most cases, researchers use an alpha of 0.05, which means that there is a less than 5% chance that the data being tested could have occurred under the null hypothesis.

ص-values are usually automatically calculated by the program you use to perform your statistical test. They can also be estimated using ص-value tables for the relevant test statistic.

ص-values are calculated from the null distribution of the test statistic. They tell you how often a test statistic is expected to occur under the null hypothesis of the statistical test, based on where it falls in the null distribution.

If the test statistic is far from the mean of the null distribution, then the ص-value will be small, showing that the test statistic is not likely to have occurred under the null hypothesis.

أ ص-value, or probability value, is a number describing how likely it is that your data would have occurred under the null hypothesis of your statistical test.

The test statistic you use will be determined by the statistical test.

You can choose the right statistical test by looking at what type of data you have collected and what type of relationship you want to test.

The test statistic will change based on the number of observations in your data, how variable your observations are, and how strong the underlying patterns in the data are.

For example, if one data set has higher variability while another has lower variability, the first data set will produce a test statistic closer to the null hypothesis, even if the true correlation between two variables is the same in either data set.

The formula for the test statistic depends on the statistical test being used.


شاهد الفيديو: رياضيات تاسع - الفصل الأول- الوحدة الرابعة - الحصة 61 مقاييس النزعة المركزية أولا الوسط الحسابي (كانون الثاني 2022).