القيم المتطرفة بعيدة عن باقي القيم ، تشير القيم المتطرفة في علم الإحصاء إلى نقطة بيانات تختلف اختلافًا كبيرًا عن القيم والملاحظات الأخرى، وقد يرجع سبب الإنحراف إلى التباين في القياس، أو قد يشير إلى خطأ تجريبي.
القيم المتطرفة بعيدة عن باقي القيم
- القيم المتطرفة، كونها أكثر القيم تطرفًا، قد تشمل الحد الأقصى أو الأدنى للعينة أو كليهما، اعتمادًا على ما إذا كانت مرتفعة أو منخفضة للغاية. ومع ذلك، فإن الحد الأقصى والحد الأدنى للعينة ليسا دائمًا قيمًا متطرفة لأنها قد لا تكون بعيدة بشكل غير عادي عن القيم الأخرى.
- يمكن أن يسبب هذا التطرف في القيم مشاكل خطيرة في التحليلات الإحصائية.
سبب حدوث القيم المتطرفة
- يمكن أن تحدث القيم المتطرفة صدفةً في أي توزيع، ولكنها تشير غالبًا إما إلى خطأ في القياس أو أن المجموعة لها توزيع ذو طرف ثقيل.
- في الحالة الأولى، يرغب المرء في تجاهلها أو استخدام إحصائيات قوية للقيم المتطرفة.
- الحالة الأخرى تشير إلى أن التوزيع به انحراف كبير، وأنه يجب على المرء الحذر في استخدام الأدوات أو الحدس الذي يفترض التوزيع الطبيعي.
- سبب تكرار القيم المتطرفة بعيدة كل باقي القيم يتمثل في مزيج من توزيعين، والذي قد يكون مجموعتين فرعيتين منفصلتين، أو قد يشير إلى “تجربة صحيحة” مقابل “خطأ قياس .
- في معظم العينات الكبرى من البيانات، تكون بعض نقاطها بعيدة عن متوسط العينة أكثر مما يعتبر معقولًا. وقد يحدث ذلك نتيجة خطأ منهجي عرضي أو عيوب في النظرية التي ولدت مجموعة مفترضة من التوزيعات الإحتمالية، أو قد تكون بعض الملاحظات بعيدة عن مركز البيانات.
- تشير النقاط الخارجية إلى بيانات أو إجراءات خاطئة، أو مناطق قد لا تكون فيها نظرية معينة صحيحة.
- في العينات الكبيرة، من المتوقع وجود عدد قليل من القيم المتطرفة .
اقرا ايضًا: أفكار مطويات رياضيات .. تعرف علي أبرز مطويات الرياضيات للمرحلة الإبتدائية والمتوسطة
تفسير القيم المتطرفة
- القيم المتطرفة في مجموعة البيانات هي قيمة بعيدة عن باقي القيم في مجموعة البيانات
- قيم غير عادية في مجموعة البيانات. وتمثل مشكلة بالنسبة للعديد من التحليلات الإحصائية؛ لأنها يمكن أن تتسبب في أن تفوت الاختبارات نتائج مهمة أو تشوه النتائج الحقيقية.
- هناك طرق مختلفة للكشف عن العوارض بعضها رسومية مثل مخططات الاحتمالية العادية. والبعض الآخر قائم على النموذج.
- لا توجد قواعد إحصائية صارمة لتحديد القيم المتطرفة بشكل نهائي.
- يعتمد العثور على القيم المتطرفة على معرفة مجال الموضوع وفهم عملية جمع البيانات.
- قد تكون القيم المتطرفة أحيانًا أخطاء نريد استبعادها أو شذوذًا لا نريد تضمينه في تحليلنا. ولكن في أوقات أخرى يمكن أن تكشف عن رؤى حول حالات خاصة في بياناتنا قد لا نلاحظها بطريقة أخرى.
طرق العثور على القيم المتطرفة
استخدام معرفة المجال
- في بعض الأحيان، تكون النطاقات النموذجية للقيمة معروفة.
- في هذه الحالة، يتم تحديد “القيم المتطرفة” من خلال المعرفة الحالية التي تحدد النطاق الطبيعي.
- يمكن معرفة النطاقات التي تتوقعها من بياناتك. إذا حددت النقاط التي تقع خارج هذا النطاق.
المؤشرات الإحصائية
- عند استخدام المؤشرات الإحصائية، تحدد القيم المتطرفة بالرجوع إلى البيانات التي نستخدمها.
- تحدد قياسًا لـ “مركز” البيانات ثم نحدد المسافة التي يجب أن تكون نقطة ما لتكون خارجة عن المألوف.
هناك نوعان من المؤشرات الإحصائية الشائعة التي يمكن استخدامها:
- المسافة من المتوسط في الإنحرافات المعيارية
- المسافة من النطاق الربيعي بمضاعفات النطاق الربيعي
لماذا يعد البحث عن القيم المتطرفة مهمًا
ضمان جودة البيانات
- أحد أسباب الرغبة في التحقق من القيم المتطرفة هو تأكيد جودة بياناتنا.
- هناك مصدران محتملان مفقودان في البيانات والأخطاء في إدخال البيانات أو تسجيلها.
رمز البيانات المفقودة
في بعض الأحيان، عندما تكون القيم غير معروفة، قد يستخدم مدخل البيانات قيمة للإشارة إلى ذلك. وتتضمن بعض الأمثلة ما يلي:
- القيم الرقمية: إذا كانت هناك قيم معروفة بأنها خارج النطاق المتوقع للقيم، فيمكن استخدامها للإشارة إلى القيم المفقودة.
- قيم السلسلة: غالبًا ما يمكن استخدام حرف واحد متكرر أو علامات ترقيم أو كلمات محددة لسلسلة مفقودة أو غير معروفة.
- الانحراف، هو الملاحظة التي تقع على مسافة غير طبيعية من القيم الأخرى في عينة عشوائية من السكان.
أنواع القيم المتطرفة
يمكن أن تتكون القيم المتطرفة من نوعين: أحادي المتغير ومتعدد المتغيرات.
- أحادية المتغير هي القيم المتطرفة في مساحة ذات بعد واحد.
- متعددة المتغيرات هي القيم المتطرفة في الفضاء ذي الأبعاد n.
يمكن أن تأتي القيم المتطرفة أيضًا بأنواع مختلفة اعتمادًا على البيئة: وتشير إلى القيم المتطرفة ، أو القيم المتطرفة السياقية، أو القيم المتطرفة الجماعية.
- القيم المتطرفة للنقطة هي نقاط بيانات فردية تقع بعيدًا عن بقية التوزيع.
- القيم المتطرفة السياقية عبارة عن ضوضاء في البيانات، مثل رموز الترقيم عند تحقيق تحليل النص أو إشارة ضوضاء الخلفية عند القيام بالتعرف على الكلام.
- يمكن أن تكون القيم المتطرفة الجماعية مجموعات فرعية من المستجدات في البيانات مثل إشارة قد تشير إلى اكتشاف ظواهر جديدة .
ما الذي يسبب القيم المتطرفة بعيدة عن باقي القيم
- اصطناعي (خطأ) / غير طبيعي
- طبيعي.
أخطاء إدخال البيانات
يمكن أن تسبب الأخطاء البشرية مثل الأخطاء التي تحدث أثناء جمع البيانات أو تسجيلها أو إدخالها القيم المتطرفة في البيانات.
على سبيل المثال: الدخل السنوي للعميل هو 100000 دولار. ويحدث خطأ بوضع عامل إدخال البيانات صفرًا إضافيًا في الشكل. يصبح الدخل 1،000،000 دولار وهو أعلى 10 مرات. لتكون القيمة الشاذة عند مقارنتها ببقية السكان.
خطأ في القياس
المصدر الأكثر شيوعًا للقيم المتطرفة. ويحدث عندما يتبين أن أداة القياس المستخدمة معيبة.
على سبيل المثال: هناك 10 آلات وزن. 9 منها صحيحة، و 1 خاطئة. سيكون الوزن الذي يتم قياسه بواسطة الأشخاص على الجهاز المعيب أعلى أو أقل من بقية الأشخاص في المجموعة. لذلك يمكن أن تؤدي الأوزان المقاسة على آلة معيبة إلى قيم متطرفة.
خطأ تجريبي:
سبب آخر للقيم المتطرفة هو الخطأ التجريبي.
على سبيل المثال: في سباق 100 متر من 7 متسابقين ، شرد أحد العدائين عن اشارة البدء الذي جعله يبدأ متأخراً. وبالتالي ، تسبب في أن يكون وقت تشغيل العداء أكثر من المتسابقين الآخرين. يمكن أن يكون إجمالي وقت تشغيله شاذا .
الخارجة المتعمدة
يوجد بشكل شائع في التدابير المبلغ عنها ذاتيًا والتي تتضمن بيانات حساسة.
خطأ في معالجة البيانات
عندما نقوم باستخراج البيانات، فإننا نستخرج البيانات من مصادر متعددة. ومن الممكن أن تؤدي بعض أخطاء المعالجة أو الاستخراج إلى قيم متطرفة في مجموعة البيانات.
خطأ المعاينه
عند قياس ارتفاع الرياضيين.عن طريق الخطأ، قمنا بتضمين بعض لاعبي كرة السلة في العينة. فمن المحتمل أن يتسبب هذا التضمين في ظهور قيم متطرفة في مجموعة البيانات.
تأثير القيم المتطرفة على مجموعة البيانات
- يمكن للقيم المتطرفة تغيير نتائج تحليل البيانات والنمذجة الإحصائية بشكل كبير.
- يزيد من تباين الخطأ ويقلل من قوة الاختبارات الإحصائية
- إذا كانت القيم المتطرفة غير موزعة عشوائيًا، فيمكن أن تقلل من الحالة الطبيعية
- يمكنها التحيز أو التأثير على التقديرات التي قد تكون ذات أهمية جوهرية
- يمكن أن تؤثر أيضًا على الافتراض الأساسي للانحدار ، وافتراضات النماذج الإحصائية الأخرى.
كيف تكتشف القيم المتطرفة؟
الطريقة الأكثر شيوعًا للكشف عن القيم المتطرفة هي التخيل.
- استخدام طرقًا مختلفة للتخيل، مثل Box-plot و Histogram و Scatter Plot
- تعتبر نقاط البيانات، ثلاثة أو أكثر من الانحراف المعياري بعيدًا عن المتوسط ، أمرًا شاذًا