[Αρχική σελίδα]

Μέτρα απόκλισης

Από Quantitative

Αρχική σελίδα | Πρόσφατες αλλαγές | Επεξεργασία αυτής της σελίδας | Page history | Δημιουργία Λογαριασμού/Είσοδος |

Εκτυπώσιμη έκδοση | Αποποίηση ευθυνών | Privacy policy

Πίνακας περιεχομένων

Μέτρα απόκλισης

Κάποιες φορές οι μέσοι δεν αρκούν από μόνοι τους να χαρακτηρίσουν τα δεδομένα μας. Χρειάζεται ακόμη να γνωρίζουμε κατά πόσο οι παρατηρήσεις μας απέχουν από το μέσο τους.

Γι'αυτό το λόγο ορίζουμε τις παρακάτω έννοιες:

Εύρος

Τα μέτρα απόκλισης δημιουργήθηκαν παράλληλα με τα μέτρα θέσης γιατί δεν επαρκούσαν για να πεγιγράψουν την κατανομή. Το εύρος αποτελεί μέτρο διασποράς. Επηρεάζεται επίσης απο τις ακραίες τιμές.

Εύρος είναι η διαφορά μεταξύ της μεγαλύτερης και της μικρότερης τιμής των δεδομένων.Και εκφράζεται με τον τύπο:

   Τύπος:R = XmaxXmin


Όταν έχουμε κάποιες τιμές στα δεδομένα που είναι πολύ χαμηλές ή πολύ υψηλές - δηλαδή ακραίες - σε σχέση με τις υπόλοιπες τιμές, τότε το εύρος δεν είναι αντιπροσωπευτική παράμετρος απόκλισης.

Πλεονεκτήματα:

-Είναι πολύ εύκολο στον υπολογισμό του.

-Περιλαμβάνει και τις ακραίες τιμές της κατανομής.

Μειονεκτήματα:

-Αλλοιώνεται από τις ακραίες τιμές με αποτέλεσμα, σε πολλές περιπτώσεις, να μην παρουσιάζει μια αντιπροσωπευτική εικόνα της διασποράς της κατανομής.

-Δεν παρέχει καμιά πληροφορία σχετικά με τη διασπορά των τιμών μεταξύ των άκρων της κατανομής. Για παράδειγμα, δεν μας λέει τίποτα για τη διασπορά των τιμών της κατανομής γύρω από το μέσο όρο.

Πηγή: [1]

Παράδειγμα

Έχουμε τις εξής παρατηρησεις: 13, 17, 30, 40 μιας μεταβολής Χ και τις παρατηρησεις 7, 12, 19, 62 μιας μεταβλητής Ψ. Τότε Δχ= Εύρος της χ= 40-13=27

Δψ= Εύρος της ψ= 62-7=55

ενώ οι αριθμητικοί μέσοι είναι ίσοι:

\bar X = \bar \Psi = 25

Παρόλο που υπολογίζεται εύκολα το εύρος είναι περιορισμένης χρησιμότητας αφού μας πληροφορεί για τη διασπορά μόνο των ακραίων και όχι όλων των υπόλοιπων παρατηρήσεων

Παράδειγμα

   Έχουμε μια ομάδα 5 ατόμων με τις αντίστοιχες ηλικίες.22, 31, 32, 45, 49.

Το εύρος είναι:R = XmaxXmin = 49 - 22 = 27

 Λύση σε R:

Αποθηκεύουμε όλες τις ηλικίες στο πίνακα "ilikies"

ilikies=c(22, 31, 32, 45, 49)

Και ύστερα εκτελούμε την εντολή > max(ilikies) - min(ilikies)

Και βρίσκουμε: [1] 27

ΑΠΛΟ ΠΑΡΑΔΕΙΓΜΑ

ΕΣΤΩ 11, 3, 6, 9, 14, 21, 7

ΒΡΕΙΤΕ ΤΟ ΕΥΡΟΣ

ΛΥΣΗ

21-3=18

Ωστόσο, όταν υπάρχουν ακραίες τιμές το εύρος δεν μπορεί να περιγράψει καλά τη διασπορά.

ΠΑΡΑΔΕΙΓΜΑ 2 ΕΥΡΕΣΗ ΕΥΡΟΥΣ ΗΛΙΚΙΩΝ(ΣΥΝΕΧΕΙΑ ΑΡΙΘΜΗΤΙΚΟΥ ΜΕΣΟΥ)


Για να βρω το εύρος των ηλικιών των εργαζομένων, δεν έχω παρά να βρω την μέγιστη τιμή και την μικρότερη από το δείγμα μου. Στο R,καλώ την εντολή max και min και ταυτόχρονα αφαιρώ από τη μέγιστη, τη μικρότερη τιμή.


> max(x)-min(x)

[1] 20

ΠΑΡΑΔΕΙΓΜΑ ΕΥΡΕΣΗΣ ΕΥΡΟΥΣ

'Εστω ότι έχουμε τις ηλικίες ενός γκρουπ ν ταξιδιωτώπου ταξιδεύει στην Ευρώπη. Οι ηλικίες τους είναι 19,34,57,70,67,69,60,58,59,55,61,62,62,60,53,52,54,51,58,22.

Το εύρος των παραπάνω ηλικιών είναι max-min , δηλαδή 69-19=50. Ωστόσο , έχουμε ακραίες τιμές όπως παρατηρούμε καθώς οι περισσότερες ηλικίες είναι συγκεντρωμένες γύρω από την ηλικία του διαστήματος 60-70. Επομένως καταλήγουμε στο συμπέρασμα πως λόγω των ακραίων τιμών , το εύρος δεν μπορεί να περιγράψει καλά τη διασπορά.

Διακύμανση

Διακύμανσηείναι ο μέσος όρος των τετραγωνικών αποκλίσεων των τιμών από το μέσο από το μέσο αριθμητικό.Συμβολίζεται με s2 . Αντίθετα με το Εύρος, που δε λαμβάνει υπόψη τη συμπεριφορά όλων των τιμών του δείγματος, χρησιμοποιούμε τη διακύμανση ως τρόπο μέτρησης που βασίζεται σε όλες τις τιμές των δεδομένων και στον τρόπο που κατανέμονται. Επιπλέον, είναι ο πιο συνηθέστερος μέτρησης της διασποράς που βασίζεται σε όλες τις παρατηρήσεις και ταυτόχρονα μετράει τη συγκέντρωση των τιμών γύρω από το μέσο αριθμητικό.


   Τύπος:s^2 = \frac {\sum^{n}_{i=1}(X_i - \bar{X})^2}{n-1}


Βλέπουμε βέβαια ότι, αν οι παρατηρήσεις έχουν μονάδα μέτρησης το μέτρο, η διακύμανση θε έχει μονάδα μέτρησης το τετράγωνο του μέτρου.

Προκειμένου να πετύχουμε να εκφράζονται στις ίδιες μονάδες οι παρατηρήσεις και το μέτρο διασποράς, θεωρούμε την τετραγωνική ρίζα της διακύμανσης

Θα τη συμβολίζουμε με σ (ή s για το δείγμα) και θα την ονομάσουμε τυπικη απόκλιση

Όπως εύκολα διαπιστώνεται η διακύμανση εκφράζεται σε τετραγωνικές μονάδες τα δεδομένα που πέρνουμε δεν έχουν νόημα.Αυτό το πρόβλημα θα το λύσουμε παρακάτω με τη τυπική απόκλιση η οποία εκφράζεται με τη ίδια μονάδα μέτρησης με την αρχική μεταβλητή.

Ιδιότητες

-Η διακύμανση μιας σταθερής μεταβλητής είναι ίση με το 0, x1=x2=...=xn=a→s2 = 0

-Αν Y=a+Bx τότε Var(Y)=b2Var(X)

-Αν β=±1 η διακύμανση της Υ=α±Χ είναι Var(Y)=Var(X)

-Αν α=0 η διακύμανση της Υ=βΧ είναι Var(Y)= b2Var(X)

-Αν α=0 και β=1/γ η διακύμανση Υ=(1/γ) Χ είναι Var(Y)=(1/γ^2)Var(X)

-Το άθροισμα των τετραγώνων των αποκλίσεων των τιμών μίας μεταβλητής Χ από δοθέντα πραγματικό αριθμό α γίνεται ελάχιστο αν ο αριθμός α συμπίπτει με το μέσο μ των τιμών της μεταβλητής Χ

Πηγή:[2]

Παράδειγμα

Σύμφωνα με τα δεδομένα του παραδείγματος που αναφέραμε σε παραπάνω ενότητα και παρατίθενται στο παρακάτω σύνδεσμο δεδομένα παραδείγματος


έτσι έχουμε σ2 = \frac{[(30-38,73)^2+(38-38,73)^2=...+ (41-38,73)^2]}{15} = 37,2622 (απασχολούμενοι)2

Συνεπώς \sigma = \sqrt{37,622}=6,10 απασχλούμενοι.

έτσι ο τύπος της διακύμανσης χρησιμοποιείται στην περίπτωση

που τα στοιχεία του πληθυσμού είναι ακατέργαστα.
Όταν αυτά είναι διαθέσιμα υπό μορφή κατανομής συχνοτήτων, τότε η διακύμανση υπολογίζεται ως:
σ2= \frac{\sum^k_{i=1}f_i(X_i -\mu)^2}{N}, όπου \sum^k_{i=1} f_i=N

ΠΑΡΑΔΕΙΓΜΑ 2 ΕΥΡΕΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΗΛΙΚΙΩΝ(ΣΥΝΕΧΕΙΑ ΑΠΟ ΑΡΙΘΜΗΤΙΚΟ ΜΕΣΟ)

Η εύρεση της διακύμανσης των ηλικιών στο R, δίνεται με την εντολή var. Πληκτρολογώντας αυτήν την εντολή λοιπόν λαμβάνω το παρακάτω:

> var(x)

[1] 49.36111

Αυτό σημαίνει ότι κατά 49.3 % συγκεντρώνονται οι τιμές γύρω από το μέσο αριθμητικό , δηλαδή το 31.1.

ΠΑΡΑΔΕΙΓΜΑ 3 ΕΥΡΕΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΒΑΘΜΟΛΟΓΙΩΝ(ΣΥΝΕΧΕΙΑ ΑΠΟ ΑΡΙΘΜΗΤΙΚΟ ΜΕΣΟ)

Για το παράδειγμα στο οποίο αναφερθήκαμε στην ενότητα του αριθμητικού μέσου σχετικά με το score των ελληνικών ομάδων σε ευρωπαϊκό πρωτάθλημα, τώρα, θα υπολογίσουμε τη διακύμανση των βαθμολογιών τους στο R. H εντολή που δίνουμε για την εύρεση της διακύμανσης λοιπόν είναι η παρακάτω.


> score=data > score

[1] 22 19 19 17 16 17 18 30 31 20

> var(score) [1] 28.54444



Η ΜΕΘΟΔΟΣ ΤΟΥ SHEPPARD ΓΙΑ ΔΙΟΡΘΩΣΗ ΤΗΣ ΔΙΑΚΥΜΑΝΣΗΣ

Διορθωμένη διακύμανση= αρχική διακύμανση - c^2/12

οπού c το διάστημα των κλάσεων

ο διορθωτικός ορος: c^2/12 ονομάζεται διόρθωση SHEPPARD και χρησιμοποιειται
σε κατανομές συνεχών μεταβλητών που τείνουν στο μηδέν και στις δύο κατευθύνσεις
και απο τις δυο μεριές του αριθμητικού μεσου.
Χρησιμοποιειται σε ορισμένες περιπτώσεις όχι παντού

Τυπική απόκλιση

Η διακύμανση μετρ'α τη διασπορά γύρω από τον μέσο σε όρους των τετραγώνγν των αποκλίσεων των επιμέρους τιμών. Με άλλα λόγια η διακύμανση δεν εκφράζεται στις ίδιες μονάδες στις οποίες μετριούνται οι αποκλίσεις και ως εκ τούτου δεν μπορεί να χρησιμοποιηθεί ως μέτρο σύγκρισης αυτών. Ωστόσο αν πάρουμε τη θετική τετραγωνική ρίζα της διακύμανσης θα έχουμε τις αποκλίσεις στις ίδιες μονάδες στις οποίες μετριούνται οι τιμές της μεταβλητής. Το μέγεθος αυτό ονομάζεται τυπιή απόκλιση και αποτελεί την πιο σημαντική παράμετρο μιας κατανομής.

Τυπική απόκλιση είναι η θετική τετραγωνική ρίζα της διακύμανσης και συμβολίζεται με s.


  Τύπος: s = \sqrt {s^2} = \sqrt{ \frac {\sum^{n}_{i=1}(X_i - \bar{X})^2}{n-1}}


Όπως προαναφέραμε η τυπική απόκλιση όσο και η διακύμανση μετρούν τη 'μέση' διασπορά των τιμών γύρω από το μέσο αριθμητικό, συνεπώς είναι άμεσα συγκρίσιμη με τη μέση τιμή. Είναι προφανές ότι όσο μικρότερη είναι η τιμή της διακύμανσης και, ως εκ τούτου, και της τυπικής απόκλισης τόσο μικρότερη είναι η διασπορά των τιμών. Η τυπική απόκλιση και η διακύμανση έχουν πάντα θετικές τιμές διότι ο υπολογισμός τους βασίζεται σε άθροισμα τετραγώνων.Η μόνη περίπτωση να είναι μηδέν είναι όταν όλες είναι ίσες μεταξύ τους , δηλαδή: \sum^{n}_{i=1}(X_i - \bar{X}) = 0


Μια από τις σπουδαιότερες πληροφορίες που παίρνουμε από την τυπική απόκλιση είναι τα ποσοστά συγκέντρωσης γύρω από το μέσο.Για παράδειγμα εάν μια μεταβλητή Χ έχει μέσο \bar{X} και τυπική απόκλιση s , τότε στο \bar{X}-s και \bar{X}+s συγκεντρώνεται το 68% καθώς και στο \bar{X}-2s και \bar{X}+2s περίπου το 95%.Τέλος σχεδόν το 100% συγκεντρώνεται στο διάστημα \bar{X}-3s και\bar{X}+3s.Ιδιαίτερα σημαντικό στα παραπάνω είναι οτι τα ποσοστά ισχύουν ανεξαρτήτος μονάδας μέτρησης, για όλα τα ποσοτικά χαρακτηριστικά. Η μόνη προπόθεση είναι η κατανομή που ακολουθεί το χαρακτηριστικό να είναι συμμετρική.

Πλεονεκτήματα:

- Μπορεί να χρησιμοποιηθεί για τον υπολογισμό των παραμέτρων του πληθυσμού

-Λαμβάνει υπόψη όλες τις τιμές της κατανομής.

-Είναι ο πιο ευαίσθητος από τους δείκτες διασποράς.

Μειονεκτήματα:

-Ο υπολογισμός της είναι σχετικά πιο περίπλοκος σε σχέση με τους υπόλοιπους δείκτες διασποράς.

-Είναι πολύ ευαίσθητη στις ακραίες τιμές της κατανομής.

Πηγή:[3]

ΠΑΡΑΔΕΙΓΜΑ 2 ΕΥΡΕΣΗ ΤΥΠΙΚΗΣ ΑΠΟΚΛΙΣΗΣ ΗΛΙΚΙΩΝ(ΣΥΝΕΧΕΙΑ ΑΠΟ ΑΡΙΘΜΗΤΙΚΟ ΜΕΣΟ)

Για την εύρεση της τυπικής απόκλισης στο R,των ηλικιών του παραδείγματος των εργαζομένων στην εταιρεία Υ , πληκτρολογούμε την εντολή sd. Πληκτρολογώντας την, λαμβάνουμε την τιμή:

> sd(x)

[1] 7.025746

Αυτό σημαίνει ότι όπως γνωρίζουμε,όσο μικρότερη είναι η τιμή της τυπικής απόκλισης τόσο μικρότερη είναι η διασπορά των τιμών γύρω από τον μέσο, άρα αυτό παρατηρούμε και στην προκειμένη περίπτωση.

ΠΑΡΑΔΕΙΓΜΑ 3 ΕΥΡΕΣΗ ΤΥΠΙΚΗΣ ΑΠΟΚΛΙΣΗΣ ΒΑΘΜΟΛΟΓΙΩΝ(ΣΥΝΕΧΕΙΑ ΑΠΟ ΑΡΙΘΜΗΤΙΚΟ ΜΕΣΟ)

Για να βρω την τυπική απόκλιση των βαθμολογιών των ελληνικών ομάδων στο ευρωπαϊκό πρωτάθλημα όπου και συμμετάσχουν στο R, πρέπει να δώσω την εντολή sd.

> sd(score)

[1] 5.3427

Άρα καταλήγω στο συμπέρασμα ότι η απόκλιση της βαθμολογίας των ελληνικών ομάδων είναι 5 πόντοι περίπου.


ΕΛΕΧΓΟΣ ΤΟΥ CHARLIER

Σf(u+1)=Σfu+Σf=Σfu + N

Σf(u+1)^2 = Σf(u^2+2u+1) = Σfu^2+2Σfu+Σf =

= Σfu^2+2Σfu

Οι σχέσεις ελέγχου του CHARLIER χρησιμοποιούνται κατά τον υπολογισμο μέσης και τυπικής απόκλισης με τη μέθοδο της κωδικοποιήσης.

Απόλυτη διακύμανση

Ονομάζεται απόλυτη διακύμανση ο μέσος των απόλυτων αποστάσεων των δεδομένων από μία παράμετρο θέσης λ.

Ορίζεται στην περίπτωση μεμονομένων δεδομένων x1,...,xn από τη σχέση:

Η απόλυτη διακύμανση εδώ, παρουσιάζει τις ίδιες μονάδες με τη μέση τιμή.

Ενώ αν h1 από τα δεδομένα έχουν την τιμή a1, h2 έχουν την τιμή a2,...., και hk έχουν την τιμή ak τότε η απόλυτη διακύμανση ορίζεται από τη σχέση:

Συντελεστης Μεταβλητότητας

Ορισμός: Αν ένα δείγμα εξεταζόμενο ως προς μια ποσοτική μεταβλητή του, παρουσιάζει μέση τιμή Χ και τυπική απόκλιση s , τότε συντελεστής μεταβολής ή συντελεστής μεταβλητότητας (CV) ονομάζεται το πηλίκο της τυπικής απόκλισης προς την μέση τιμή * 100%.

Ο Συντελεστής μεταβλητότητας αποτελεί σχετική μέτρηση της διασποράς σε αντίθεση με τους παραπάνω τρόπους.Εκφράζεται ως ποσοστό επι τοις εκατό(%) και η μαθηματική του έκφραση ορίζεται ως ο λόγος της τυπικής απόκλισης προς το μέσο αριθμητικό.

 Τύπος: CV = \frac {s}{\bar{X}}

Ωστόσο, αν \bar{x} <0 τότε CV = \frac {s}{|\bar{X}|}


Αυτό που πρέπει να τονιστεί σε ότι αφορά τον συντελεστή μεταβλητότητας είναι πως εφόσον τα δεδομένα που πέρνουμε από αυτον είναι επι τοις εκατό (%), είναι ανεξάρτητος από τις μονάδες μετρήσεων των δεδομένων μας κ έτσι μας διευκολύνει στο να συγκρίνουμε ομάδες δεδομένων με διαφορετικές μονάδες μέτρησης. Συγκρίνουμε επίσης δείγματα με μεγάλες αποκλίσεις στις μέσες τιμές.

Ο συντελεστής μεταβολής δεν ορίζεται όταν η μέση τιμή x του δείγματος είναι κοντά στο μηδέν.

Ο CV μετράει την ομοιογένεια ενός πληθυσμού.

• Αν είναι CV<10% , ο πληθυσμός θεωρείται ομοιογενής

• Αν είναι CV>10% ή CV=10% , ο πληθυσμός θεωρείται ανομοιογενής.


ΜΕΙΟΝΕΚΤΗΜΑ ΣΥΝΤΕΛΕΣΤΗ ΜΕΤΑΒΛΗΤΟΤΗΤΑΣ

Παύει να είναι χρήσιμος όταν ο αριθμητικός μέσος πλησιάζει στο μηδέν.

Παράδειγμα

Αν η μέση ηλικία των Ελλήνων αποφοίτων ανωτάτων σχολών είναι \bar{X} =43.79 έτη με τυπική απόκλιση σ =14,62 έτη, ενώ αντιστοιχα των Ελληνίδων αποφοίτων ανωτάτων σχολών ή μέση ηλικία είναι \bar{X}_{1} =40.23 έτη και με τυπική απόκλιση \sigma_{1} =14,.2 έτη, ποια από της δυο κατανομές είναι πιο διεσπαρμένη;

 απάντηση:

για το σύνολο των Ελλήνων αποφοίτων είναι

CV = \frac{\sigma}{\bar{X}} = 0.33 ή 33%

και για τις γυναίκες αντίστοιχα:

CV = \frac{\sigma_1}{\bar{X}_1} = 0.33

- Διαπιστώνεται ότι η Διασπορά των γυναικών αποφοίτων ανωτάτων σχολών είναι μεγαλύτερη από αυτή του συνόλου των αποφοίτων, παρά το ότι η σχέση των τυπικών αποκλίσεωνε ε'ιναι αντίστροφη δηλαδή σ1 < σ

Παράδειγμα 2

Ένας επενδυτής εξετάζει τη συμπεριφορά των δύο μετοχών δύο εταιριών εισηγμένων στο Χρηματιστήριο. Αν οι εταιρίες είναι περίπου το ίδιο αξιόλογες με βάση τα συνήθη χρηματοοικονομικά κριτήρια (αξία εταιρίας, ανάπτυξη κ.α.) τότε χρήσιμο κριτήριο αξιολόγησης αποτελεί η μεταβλητότητα της τιμής των μετοχών.

Αν για περίοδο πέντε περίπου μηνών παρατηρείται:

Επομένως:

\RightarrowCV_{A}=\frac{s_{A}}{\bar{X}_{A}}=20%

\RightarrowCV_{B}=\frac{s_{B}}{\bar{X}_{B}}=33.3%


Άρα η Β είναι περισσότερο ασταθής σε σχέση με την Α. (Παρόλο που η μετοχή Α λόγω της μεγαλύτερης διακύμανσής της-μεταβλητότητας της έχει μεγαλύτερο επενδυτικό κίνδυνο).

Παράδειγμα 3

Έχουμε τους εξής μισθούς στην Ελλάδα: 10, 15, 20, 25 και 30 ευρώ

Αντίστοιχα στην Νορβηγία οι μισθοί διαμορφώνονται ως εξής: 110, 115, 120, 125, 130 ευρώ

\bar{x}= 10+15+20+25+30/4= 100/5= 20,  \bar{y}= 110+115+120+125+130/5= 600/5= 120, \sigma^2= \frac{\sum^k_{i=1}f_i(X_i -\mu)^2}{N}= 250/5= 50 s = \sqrt {s^2} = \sqrt {50}= 5 \sqrt {2},   CV1= 5 \sqrt {2} / 20= \sqrt {2}/ 4,    CV2= 5 \sqrt {2}/ 120=  \sqrt {2}/ 24,   CV2<CV1

To CV2, επομένως, παρουσιάζει μεγαλύτερη ομοιογένεια.

Ενδοτεταρτημοριακό εύρος

Το ενδοτεταρτημοριακό εύρος (interquantile range) είναι η διαφορά του πρώτου από το τρίτο τεταρτημόριο. Στο μεταξύ τους διάστημα το 50% των τιμών της κατανομής. Επομένως, όσο μικρότερο είναι αυτό το διάστημα, τόσο μεγαλύτερη θα είναι η συγκέντρωση των τιμών και άρα μικρότερη η διασπορά των τιμών της μεταβλητής. Το μισό του ενδοτεταρτημοριακού εύρους είναι γνωστό ως ημιενδοτεταρτημοριακό εύρος (semi-interquantile range) και συμβολίζεται με Q. Μετριέται με τις ίδιες μονάδες της μεταβλητής και δεν εξαρτάται από όλες τις τιμές αλλά μόνο από εκείνες που περιλαμβάνονται στον υπολογισμό του πρώτου και τρίτου τεταρτημορίου.


Ένα άλλο μέτρο διασποράς είναι το ενδοτεταρτημοριακό εύρος (interquartile range) Q και χρησιμοποιείται για την αντιμετώπιση του μειονεκτήματος του Εύρους, το να επηρεάζεται δηλαδή από τις ακραίες τιμές. Τα τεταρτημόρια μπορούν να χρησιμοποιηθούν για να δημιουργήσουν το ενδοτεταρτημοριακό εύρος το οποίο ορίζεται ως εξής:

Ενδοτεταρτημοριακό Εύρος = Q3 – Q1

Το ενδοτεταρτημοριακό εύρος μετράει το άπλωμα του 50% των μεσαίων παρατηρήσεων. Μεγάλες τιμές αυτής της στατιστικής σημαίνουν ότι το 1ο και 3ο τεταρτημόριο απέχουν υποδεικνύοντας υψηλό επίπεδο μεταβλητότητας.

Το ενδοτεταρτημοριακό εύρος ορίζεται ως η διαφορά του πρώτου τεταρτημορίου \ Q_1 από το τρίτο τεταρτημόριο \ Q_3 (η διαφορά του 75ου και του 25ου ποσοστιαίου σημείου) δηλαδή:


  Τύπος:\ Q=\ Q_3 - \ Q_1 = \tilde{x}_{3/4} - \tilde{x}_{1/4}


Στο μεταξύ τους διάστημα (\ Q_3 - \ Q_1) περιλαμβάνεται το 50% των παρατηρήσεων. Δείχνει ουσιαστικά το εύρος των τιμών που συγκεντρώνεται σ'αυτό το μεσαίο - κεντρικό τμήμα (50%) των παρατηρήσεων. Επομένως όσο μικρότερο είναι αυτό το διάστημα , τόσο μεγαλύτερη θα είναι η συγκέντρωση των τιμών και άρα μικρότερη η διασπορά των τιμών της μεταβλητής.Όμως , το πρόβλημα παραμένει το ίδιο με το εύρος δηλαδή το ότι αγνοούνται οι τιμές μεταξύ του Q1 και του Q3, όπως αγνοούνται και οι υπόλοιπες τιμές της Χ, εκτός από τις τιμές Q1 και Q3.

Πλεονεκτήματα:

-Δεν επηρεάζεται από τις ακραίες τιμές

- Είναι σχετικά εύκολο στον υπολογισμό του

- Είναι αντιπροσωπευτικό των κεντρικών τιμών της κατανομής

Μειονεκτήματα:

-Δεν λαμβάνει υπόψη τις ακραίες τιμές της κατανομής

-Όπως και το εύρος, δεν επιτρέπει την ακριβή ερμηνεία μιας συγκεκριμένης τιμής της κατανομής

-Δεν είναι ακριβές όταν τα δεδομένα είναι ομαδοποιημένα κατά μεγάλα διαστήματα τιμών

- Όπως και η διάμεσος, δεν περιγράφει καμιά από τις παραμέτρους, οι οποίες είναι βασικές για την επαγωγική στατιστική

Πηγή: [4]


ΤΟ ΕΥΡΟΣ 10-90

Το εύρος 10 και 90 εκατοστιαίων σημείων ή διαφορετικά εύρος 10-90 ορίζεται:

ΕΥΡΟΣ 10-90= P90-P10(οπού δέκατο και ενενηκοστό εκατοστιαίο σημείο)

Παρατηρήσεις

Όταν έχουν υπολογισθεί τα ενδοτεταρτημοριακά πλάτη Q(X) και Q(Y) δυο μεταβλητών Χ και Υ, που 6εν μετριούνται στις ίδιες μονάδες, τότε δεν είναι δυνατή η σύγκριση των διασπορών τους με τα Q(X} και Q(Y). Για να επιτευχθεί η σύγκριση καταφεύγουμε στα σχετικά ενδοτεταρτημοριακό πλάτη διαιρώντας τα ενδοτεταρτη μοριακά πλάτη δια της αντίστοιχης διαμέσου.

Q(X) = Q3(X) − Q1(X) CQ(X)= \frac{(Q_3(X)-Q_1(X)}{M(X)}


Q(Y) = Q3(Y) − Q1(Y) CQ(Y)= \frac{(Q_3(Y)-Q_1(Y)}{M(Y)}

Ως σχετικό ενδοτεταρτημοριακό πλάτος ορίζεται ο λόγος του ενδοτεταρτη μοριακού πλάτους Q δια της διαμέσου τιμής Μ:

CQ=\frac{Q}{M} ή CQ=\frac{Q_3 - Q_1}{M}

Αν από τις κατανομές συχνοτήτων των μεταβλη τών Χ και Υ προσδιορίσουμε τις διάμεσες τιμές Μ(Χ) και Μ(Υ) και τα τεταρτημόρια Q1(X),Q3(X),Q1(Y),Q3(Y) Και είναι:

M(X)= 7.5 ώρες                          Q(X) = Q3(X) − Q1(X)= 9-4=5 ώρες
Q_1(X) = 4 ώρες   ή                CQ(X)=\frac{Q_3(X) - Q_1(X)}{M(X)} =5/7=0,67
Q_3(X) = 9 ώρες                    

M(Y)= 10.005                            Q(Y) = Q3(Y) − Q1(Y)= 12000-8000=4000
Q_1(Y) = 8000   ή                CQ(Y)=\frac{Q_3(Y) - Q_1(Y)}{M(Y)} =4000/10500=0,38
Q_3(Y) = 12.000 

Παρατηρείται ότι 6 υ ν είναι δυνατό να συγκριθούν τα δύο ενδοτεταρτημοριακό πλάτη Q(X)=5 ώρες και Q(Y)=4000. Συγκρίνοντας όμως τα σχετικά ενδοτεταρτημοριακά πλάτη CQ(X) και CQ(Y) που είναι αριθμοί (δεν εκφράζονται σκ μονάδες) διαπιστώνεται ότι η μεταβλητή Χ είναι πιο διεσπαρμένη από την Υ, που είναι πιο συγκεντρωμένη.

ΠΑΡΑΔΕΙΓΜΑ 2 ΕΥΡΕΣΗ ΕΝΔΟΤΕΤΑΡΤΗΜΟΡΙΑΚΟΥ ΕΥΡΟΥΣ ΗΛΙΚΙΩΝ (ΣΥΝΕΧΕΙΑ ΑΡΙΘΜΗΤΙΚΟΥ ΜΕΣΟΥ)

Για την εύρεση του ενδοτεταρτημοριακού εύρους των ηλικιών των εργαζομένων στο R, πληκτρολογούμε την παρακάτω εντολή:

> quantile(x)[4]-quantile(x)[2] 75%

 9

Z-τιμή

Τυπική τιμή (ή z-τιμή)ονομάζεται μια μετασχηματισμένη τιμή που δείχνει πόσες τυπικές αποκλίσεις πάνω ή κάτω από το μέσο όρο βρίσκεται η αντίστοιχη αρχική τιμή. Μας κάνει γνωστή τη θέση μιας παραήρησης σε σχέση με τις υπόλοιπες. Πρόκειται για καθαρό αριθμό και ο τύπος υπολογισμού της γίνεται με τον πάρακατω τύπο:


    Τύπος: z = \frac{X - \bar{X}}{s}

όπου \bar{X} ο Αριθμητικός Μέσος και s η Τυπική Απόκλιση


Οι πιο συνηθισμένες κρίσιμες τιμές z σε μια κανονική κατανομή είναι i)(1-a) , ii)a/2 , iii) Z_{\frac {a}{2}} ,το a ονομάζεται πιθανότητα σφάλματος και το (1-a) συντελεστής εμπιστοσύνης.Το Z_{\frac {a}{2}} την τιμή z που χωρίζει από δεξιά την περιοχή με εμβαδό a/2 κάτω από την καμπύλη της κανονικής κατανομής.

Αυτό που επιτρέπει τη σύγκριση δύο ή περισσότερων διαφορετικών κατανομών μετά τον μετασχηματισμό τους σε κατανομές Ζ είναι το γεγονός ότι όλες οι κατανομές Ζ ανεξάρτητα από τις αρχικές τιμές έχουν το ίδιο μέσο και την ίδια τυπική απόκλιση. Πιο συγκεκριμένα, όλες οι κατανομές Ζ έχουν μέσο 0 και διακύμανση ίση με τη μονάδα.

Απλό παράδειγμα

Έστω ότι έχουμε 10 παρατηρήσεις 1, 3, 15, 0, 1, 2, 3, 4, 1, 0. Να βρεθεί η σχετική θέση της παρατήρησης 20.

\hat{x}=3,0 S2=17,6, ενώ S\simeq4,2.

Άρα, η z-τιμή είναι z-τιμή=\frac{20-3}{4,2}\simeq 4,06, δηλαδή η τιμή 20 είναι περίπου 4 τυπικές πάνω απο το 3. Η τελευταία χαρακτηρίζεται σαν μια ακραία τιμή.

Βιβλιογραφία

Στατιστικές μέθοδοι, Δημήτρη Α. Ιωαννίδη, Εκδόσεις ΖΗΤΗ, 3Η Έκδοση, θεσσαλονίκη 2005, Σελίδα 45

Παράδειγμα

Ένας φοιτητής πήρε 85 στις τελικές εξετάσεις των μαθηματικών ωστόσο στο μάθημα αυτο κατά τη διάρκεια του έτους είχε μέση επίδοση 77 και τυπική απόκλιση 10.

Ο ίδιος φοιτητής στο μάθημα της χημείας πήρε 91 στις τελικές εξετάσεις και ως μέση επίδοση μεσα στο έτος είχε 83 με τυπική απόκλιση 16.

Βρείτε πού τα πήγε πιο καλά:

Z=τυπική απόκλιση της τιμής Χ από τον αριθμητικό μέσο ως προς την τυπική απόκλιση s.

ΕΤΣΙ:


ΓΙΑ ΤΑ ΜΑΘΗΜΑΤΙΚΑ:

Ζ=(85-77)/10 = 0,8 της τυπικής απόκλισης πάνω από τον μέσο όρο.

ΓΙΑ ΤΗ ΧΗΜΕΙΑ:

Ζ=(91-83)/16=0,5 της τυπικής απόκλισης πάνω από το μέσο όρο.

Άρα τα πήγε καλύτερα στα μαθηματικά.

Ανακτήθηκε από το "http://androulakis.bma.upatras.gr/mediawiki/index.php/%CE%9C%CE%AD%CF%84%CF%81%CE%B1_%CE%B1%CF%80%CF%8C%CE%BA%CE%BB%CE%B9%CF%83%CE%B7%CF%82".

Αυτή η σελίδα έχει προσπελαστεί 12.929 φορές. Η σελίδα αυτή τροποποιήθηκε τελευταία φορά στις 14:03, 4 Μαρτίου 2013.