[Αρχική σελίδα]

Μέθοδος ελαχίστων τετραγώνων

Από Quantitative

Αρχική σελίδα | Πρόσφατες αλλαγές | Εμφάνιση κώδικα | Page history | Δημιουργία Λογαριασμού/Είσοδος |

Εκτυπώσιμη έκδοση | Αποποίηση ευθυνών | Privacy policy

Παλινδρόμηση και συσχέτιση
Λογδανίδη Σιμέλα Α.Μ.1032
Τμήμα Διοίκησης Επιχειρήσεων
Πανεπιστήμιο Πατρών
26500
Πάτρα

Πίνακας περιεχομένων

Περίληψη

Η ενότητα της παλινδρόμησης και της συσχέτισης ασχολείται με την μέθοδο ελαχιστων τετραγώνων και γίνεται εκτίμηση της διακύμανσης της ευθείας παλινδρόμησης.

Λέξεις κλειδιά: ελάχιστο τετράγωνο σφαλμάτων.


Παλινδρόμηση και συσχέτιση

Το πρόβλημα παλινδρόμησης βασίζεται στην προσπάθεια πρόβλεψης της συμπεριφοράς μιας μεταβλητής (εξαρτημένης), βασισμένη σε μια άλλη (ανεξάρτητη). Όταν αυτή η πρόβλεψη γίνεται σε δύο μόνο τυχαίες μεταβλητές τότε θα μιλάμε για την απλή παλινδρόμηση, ενώ όταν η πρόβλεψη για την εξαρτημένη μεταβλητή βασίζεται σε περισσότερες από μία μεταβλητές τότε θα ονομάζεται πολλαπλή παλινδρόμηση.

Ιδιότητες Εκτιμητών Ελαχίστων Τετραγώνων

To Θεώρημα Gauss-Markov ισχύει μόνο για γραμμικά συστήματα παλινδρόμησης και λέει ότι δεδομένων των υποθέσεων , οι συντελεστές \widehat{\beta} 0 και \widehat{\beta} 1 είναι οι πιο αποτελεσματικοί από όλους τους πιθανούς αμερόληπτους εκτιμητές των β0 και β1, καθώς έχουν την μικρότερη διακύμανση μεταξύ των οποιονδήποτε αμερόληπτων εκτιμητών. Αν το θεώρημα δεν ισχύει τότε οι εκτιμητές \widehat{\beta} 0 και \widehat{\beta} 1 , των ελαχίστων τετραγώνων δεν είναι BLUE (Best Linear Unbiased Estimator). Το θεώρημα Gauss - Markov μας λέει οτι αν ισχύουν οι συνθήκες παλινδρόμησης τότε οι εκτιμητές ελαχίστων τετραγώνων \widehat{\alpha} και \widehat{\beta}:

Παράδειγμα 1

Θεωρούμε 2 μεταβλητές, τον δείκτη χρηματιστηρίου (Χ), και την τιμή μιας μετοχής (Y). Ακολουθούν τα δεδομένα.

'Χ'     'Υ'
3124      82 
2814      77
3213      88
3427      98
3111      89
Το υπόδειγμα γραμμικής παλινδρόμησης είναι της μορφής: Y = α + βX + ε και η εκτίμηση δίνεται απο το \widehat{Y}=\widehat{\alpha}+ \widehat{\beta} X.

Οι εκτιμητές των μεταβλητών προκύπτουν με τη μέθοδο ελαχίστων τετραγώνων.

\widehat{\beta}= \frac{\sum_{i=1}^{5} (X_{i}-\overline{X}) (Y_{i}-\overline{Y})}{\sum_{i=1}^{5} (X_{i}-\overline{X})^{2}}=6509,8/195046.8=0.33376

\widehat{\alpha}=\overline{Y}- \widehat{\beta} \overline{X}=86.8- 3137.8* 0.33376= -17.92589

Με το πακέο R έχουμε:

> x=c(3124,2814,3213,3427,3111)
> y=c(82,77,88,98,89)
> lm(y~x)
Coefficients:
(Intercept)            x  
  -17.92589      0.03338

Παράδειγμα 2

Έχουμε 2 μεταβλητές, την ανεξάρτητη (Χ), και την εξαρτημένη (Y). Ακολουθούν τα δεδομένα:

'Χ'     'Υ'
15      92 
14      97
17      108
21      111
25      119

Στην γραμμική παλινδρόμηση, σκοπός μας είναι να δημιουργήσουμε ένα γραμμικό υπόδειγμα το οποίο να συνδέει την μεταβλητή Y με την μεταβλητή X.

Το υπόδειγμα είναι της μορφής: Y = α + βX + ε και η εκτίμηση δίνεται απο το \widehat{Y}=\widehat{\alpha}+ \widehat{\beta} X.

Οι εκτιμητές των μεταβλητών προκύπτουν με τη μέθοδο ελαχίστων τετραγώνων.

\widehat{\beta}= \frac{\sum_{i=1}^{5} (X_{i}-\overline{X}) (Y_{i}-\overline{Y})}{\sum_{i=1}^{5} (X_{i}-\overline{X})^{2}}=183.2/83.2=2.201923

\widehat{\alpha}=\overline{Y}- \widehat{\beta} \overline{X}=64.88462

Απλούστερα μπορούν να προκύψουν οι εκτιμητές απο το R.

> x=c(15,14,17,21,25)
> y=c(92,97,108,111,119)
> lm(y~x)

Coefficients: (Intercept) x

    64.885        2.202



Μέθοδος ελαχίστων τετραγώνων

Θεωρία

Σε πολλά πειράματα υπάρχει μία γραμμική σχέση ανάμεσα στα μετρούμενα μεγέθη. Για παράδειγμα, η ταχύτητα ενός σώματος το οποίο εκτελεί ελεύθερη πτώση, μεταβάλλε-ται γραμμικά με το χρόνο, εφόσον αγνοήσουμε την αντίσταση του αέρα. Τοποθετώντας τα σημεία σε ένα διάγραμμα, βλέπουμε ότι αυτά προσεγγίζουν μία ευθεία γραμμή. Το επόμενο βήμα είναι να βρούμε την κλίση της ευθείας η οποία προσεγγίζει περισσότερο αυτά τα σημεία, και το σημείο στο οποίο αυτή τέμνει τον άξονα y (τεταγμένη). Σε κάθε περίπτωση, δεν περιμένουμε η ευθεία να διέρχεται από όλα τα σημεία, λόγω της παρου-σίας τυχαίων σφαλμάτων. Μπορούμε να βρούμε προσεγγιστικές τιμές τόσο για την κλίση όσο και για την τεταγμένη, εάν σχεδιάσουμε μία ευθεία η οποία να διέρχεται ανάμεσα από τα διεσπαρμένα σημεία. Η ακριβέστερη όμως μέθοδος για να το πετύχουμε αυτό είναι η μέθοδος των ελαχίστων τετραγώνων.

Αναφέραμε ότι γραμμική ευθεία παλινδρόμησης είναι α+βx, και γνωρίζοντας ότι είναι αδύνατο να βρούμε ένα ακριβώς y, το οποίο να εισέρχεται από την ευθεία παλινδρόμησης, όταν γνωρίζουμε ένα x, τότε έχουμε κάποιο προβλεπόμενο y. Δηλαδή, την ευθεία πρόβλεψης ή παλινδρόμησης ή ελαχίστων τετραγώνων:


\hat{y}=\hat{\alpha} +\hat{\beta}  x
(1)


Η εκτίμηση \hat{y}=\hat{\alpha} +\hat{\beta}  x της πληθυσμιακής ευθείας παλινδρόμησης E(Y / X) =α + β ⋅ X , ονομάζεται ευθεία ελαχίστων τετραγώνων από τη μέθοδο υπολογισμού των παραμέτρων της. Τα “καπελομένα” α και β είναι εκτιμητές των α και β, που επιλέγονται με την μέθοδο των ελαχίστων τετραγώνων. Και επιλέγονται έτσι ώστε το άθροισμά των τετραγώνων των σφαλμάτων να είναι ελάχιστο. Δηλαδή:


Ελάχιστο τετράγωνο σφαλμάτων= \sum_{i=1}^{n}(Y_{i}-\alpha-\beta x_{i})^2
(2)

Η γραμμή ελαχίστων τετραγώνων είναι αυτή που ελαχιστοποιεί το άθροισμα των τετραγώνων των σφαλμάτων σε σχέση με τις προσεγγίσεις των α και β. Η ελαχιστοποίηση της τελευταίας έκφρασης γίνεται σε σχέση με τα α και β. Μετά από την παραγοντοποίηση αυτής αναφορικά με τα α και β, αφού τεθούν οι πρώτες παράγωγοι ίσον με το μηδέν τότε έχουμε τις εξισώσεις:


\alpha n+\beta \sum_{i=1}^{n} x_{i}=\sum Y_{i})
\alpha \sum x_{i}+ \beta \sum_{i=1}^{n} {x^2}_{i} = \sum x_{i} Y_{i}
(3)

Επίσης το άθροισμα των τετραγώνων, καθώς και τα γινόμενά τους υπολογίζονται απο τους παρακάτω τύπους:

SS_x=\sum(x-\hat{x})^2=\sum x^2-\frac{(\sum x)^2}{n}

SS_y=\sum(y-\hat{y})^2 =\sum y^2 -\frac {(\sum y)^2} {n}

SS_{xy}=\sum(x-\hat{x})(y-\hat{y})=\sum xy-\frac{\sum x \sum y}{n}


Και καταλήγουμε στους εξής τύπους:


\hat{\beta}=\frac {\sum_{i=1}^{n} x_{i} Y_{i} - n \bar{x} \bar{Y}}{\sum_{i=1}^{n} x_{i}^2 - n(\bar{x})^2}
\hat{\alpha}=\bar{Y} -\hat{\beta}  x
(4)


Όπου ”καπελωμένα” x και Y είναι οι μέσοι των x1, x2, ..., xn και Y1, Y2, ..., Yn αντίστοιχα.

Και βέβαια όπου \hat{\alpha} και \hat{\beta} οι λύσεις των κανονικών εξισώσεων.

Μια διαφορετική έκφραση του \hat{\beta} αποτελεί ο εξής τύπος :

class="prettytable"
\hat{\beta}=\frac {\sum_{i=1}^{n} (x_{i}-\bar{x})(Y_{i}-\bar{Y})}{\sum_{i=1}^{n} (x_{i} - \bar{x})^2}

ΑΡΑ: \hat{\beta}=\sum_{i=1}^{n}\frac {(x_{i}-\bar{x})}{\sum_{i=1}^{n} (x_{i} - \bar{x})^2}(y_{i}-\bar{y})

ΑΡΑ: \hat{\beta}=\sum_{i=1}^{n}w_{i}(y_{i}-\bar{y})

, όπου wi = \frac {x_{i}-\bar{x}}{\sum_(x_{i}-\bar{x})^2}

Η εκτίμηση ελαχίστων τετράγωνων \hat{y}=\hat{\alpha} +\hat{\beta}  x της ευθείας παλινδρόμησης από το δείγμα των ν ζευγών παρατηρήσεων είναι, επομένως, η \hat{y}=\hat{\alpha} +\hat{\beta}  x=\overline{y}-\hat{\beta}\overline{x}=\overline{y}+\hat{\beta} (X-\overline{x}) Προφανώς, η ευθεία ελαχίστων τετραγώνων, διέρχεται από το σημείο(\overline{x},\overline{y}).  ===Τυπικό σφάλμα===  '''ΟΡΙΣΜΟΣ'''   Η μέση απόσταση μεταξύ της πραγματικής και της εκτιμούμενης τιμής της μεταβλητής y,καλείται '''τυπικό σφάλμα της εκτίμησης''΄(standar error of the estimate),συμβολίζεται με s και ισχύει:  s=<math>\sqrt{\frac{\sum_{i=1}^{n}{(y_{i}-\widehat{y_{i}})}^2}{n-2}}

Εάν το s είναι μικρό,τότε τα y και τα \widehat{y} δε θα διαφέρουν πολύ και η ευθεία γραμμικής παλινδρόμισης μας δίνει μια καλή περιγραφή της σχέσης μεταξύ των x και y. Αν το s είναι μεγάλο,τότε δε μπορούμε να πούμε ότι έχουμε καλή περιγραφή αυτής της σχέσης. Αλγεβρικά αποδυκνείεται ότι:

\sum_{i=1}^{n}{(y_{i}-\bar{y_{i}})}^2=\sum_{i=1}^{n}{(y_{i}-\widehat{y_{i}})}^2+\sum_{i=1}^{n}{(y_{i}-\bar{y_{i}})}^2

Το άθροισμα \sum_{i=1}^{n}{(y_{i}-\bar{y_{i}})}^2 καλείται ολική μεταβολή(total variation) και αναλύεται σε δύο συνιστώσες. Το άθροισμα \sum_{i=1}^{n}{(y_{i}-\bar{y_{i}})}^2 είναι η μία συνιστώσα και οφείλεται στην παλινδρόμηση,ενώ το άθροισμα \sum_{i=1}^{n}{(y_{i}-\widehat{y_{i}})}^2 είναι η δεύτερη συνιστώσα καλείται υπόλοιπο μεταβολής(residual variation) και είναι η μεταβολή που οφείλεται σε άλλους παράγοντες εκτός από το x.


Παράδειγμα 1

Αν Y είναι ο μηνιαίος όγκος του τζίρου της επιχείρησης και X η ανεξάρτητη μεταβλητή των μηνιαίων εσόδων της επιχείρησης, να βρεθεί η ευθεία πρόβλεψης των μηνιαίων εσόδων ( X ) με τον μηνιαίο τζίρο ( Y ). Δίνεται ο παρακάτω πίνακας με επιλεγμένους τυχαίους μήνες:

  ΜΗΝΑΣ   ΕΣΟΔΑχ     ΤΖΙΡΟΣy   
      1      0.6         172        
      2      0.8         202         
      3      0.7         188        
      4      1.2         174          
      5      1           200          
      6      0.6         220         
      7      0.9         212
      8      0.5         189
      9      0.5         209
     10      1.3         158
     11      1           206
     12      0.7         162


Λύση:

     yi       xi       (xi)2       yixi       (yi)2
    172      0.6        0.36      103.2       29584                  
    202      0.8        0.64      161.6       40804                    
    188      0.7        0.49      131.6       35344                 
    174      1.2        1.44      208.8       30276                    
    200      1          1         200         40000                    
    220      0.6        0.36      132         48400                 
    212      0.9        0.81      190.8       44944            
    189      0.5        0.25       94.5       35721          
    209      0.5        0.25      104.5       43681             
    158      1.3        1.69      205.4       24964             
    206      1          1         206         42443         
    162      0.7        0.49      113.4       26244              
   2292      9.8        8.78     1851.8      442398   Άθροισμα

\hat{\beta}=\frac {\sum_{i=1}^{n} x_{i}- \bar{x}}{(\sum_{i=1}^{n} x_{i}- \bar{x})^2}(y_{i}- \bar{y})=\frac {9.8- 0.81}{(9.8-0.81)^2}(2292-191)=233.7

\hat{\alpha}=\hat{Y} +\hat{\beta} x= 191 +233.7= 380.3

και \hat{y}=\hat{\alpha} +\hat{\beta} x= 380.3 + 233.7 x


Παράδειγμα 2


ΕΧΟΥΜΕ ΤΗΝ Α ΕΠΙΧΕΊΡΗΣΉ Η ΌΠΟΙΑ ΈΧΕΙ ΑΠΛΩΘΕΊ ΣΕ 5 ΠΕΡΙΟΧΈΣ.ΝΑ ΒΡΕΘΕΊ Η ΜΗΝΙΑΊΑ ΠΡΟΒΛΕΨΗ ΤΟΝ ΕΣΟΔΩΝ ΤΗΣ ΕΠΙΧΕΙΡΗΣΗΣ. ΕΧΟΥΜΕ Χ ΠΩΛΗΣΕΙΣ ΤΗΣ ΕΠΙΧΕΊΡΗΣΗΣ ΑΝΆ ΠΕΡΙΟΧΉ ΚΑΙ Υ ΤΟ ΚΈΡΔΟΣ.

 ΠΕΡΙΟΧΈΣ      ΠΩΛΉΣΕΙΣ (Χ)    ΚΈΡΔΟΣ (Υ)


1              0,8              134
2              0,9              135
3               1               40
4               1,5             200
5               1,2             220
ΛΎΣΗ

Υi Xi (Xi)2 YiXi (Yi)2

134 0.8 0.68 107.2 17956

135 0.9 0.81 121.5 18225

40 1 1 40 1600

200 1.5 2.25 300 40.000

220 1.2 1.44 264 48400

729 5.4 6.18 832.7 126181 άθροισμά

\hat{\beta}=\frac {\sum_{i=1}^{n} x_{i}- \bar{x}}{(\sum_{i=1}^{n} x_{i}- \bar{x})^2}(y_{i}- \bar{y})=\frac {5.4- 1.08}{(5.4-1.08)^2}(729-145.8)=134,13

\hat{\alpha}=\hat{Y} +\hat{\beta} x= 145.8 +134.13=279.93 και \hat{y}=\hat{\alpha} +\hat{\beta} x= 279.93 + 134.13 x

Παράδειγμα 3

Έστω μια επιχείρηση , όπου miles=x , dollars=y, Miles2 =x2 και miles*dollars=x*y

Miles Dollars Miles2 Mile*Dollars

1211 1802 1466521 2182222

1345 2405 1809025 3234725

1422 2005 2022084 2851110

1687 2511 2845969 4236057

1849 2332 3418801 4311868

2026 2305 4104676 4669930

2133 3016 4549689 6433128

2253 3385 5076009 7626405

2400 3090 5760000 7416000

2468 3694 6091024 9116792

2699 3371 7284601 9098329

2806 3998 7873636 11218388

3082 3555 9498724 10956510

3209 4692 10297681 15056628

3466 4244 12013156 14709704

3643 5298 13271449 19300614

3852 4801 14837904 18493452

4033 5147 16265089 20757852

4267 5738 18207288 24484046

4498 6420 20232004 28877160

4533 6059 20548088 27465448

4804 6426 23078416 30870504

5090 6321 25908100 32173890

5233 7026 27384288 36767056

5439 6964 29582720 37877196

79,448 106,605 293,426,946 390,185,014


SS_x=\sum(x-\hat{x})^2=\sum x^2-\frac{(\sum x)^2}{n}=40.947.557,84


SS_{xy}=\sum(x-\hat{x})(y-\hat{y})=\sum xy-\frac{\sum x \sum y}{n}=51.402.852,4


b_1=\frac{SS_xy}{SS_x}=1,255333776


b_0=\hat{y}-b_1\hat{x}=274,85



βιβλιογραφία ==

  1. Δημήτρης Α. Ιωαννίδη, Στατιστικές Μέθοδοι, εκδόσεις Ζήση, σελ. 239 – 249, Μάρτιος 1999, Μάρτιος 2001, Σεπτέμβριος 2005.
  2. Κωνσταντίνου Ηλία Κέκορβ, Στατιστικές Μέθοδοι, εκδόσεις Ελληνική Λιθογραφία, σελ. 11-80, Αθήνα 1990.
  3. Douglas Downing, Jefrey Clark, Στατιστική Των Επιχειρήσεων, εκδόσεις Κλειδάριθμος, σελ. 345-369, 395-399, Αθήνα 2000.
  4. Ιωάννης Χαλικιάς, Στατιστική-Μέθοδοι Ανάλυσης για Επιχειρηματικές Αποφάσεις, εκδόσεις Rosili, σελ. 218-240, 270-327, Αθήνα 2003.
  5. Ι. Α. Κουτρουβέλη, Στατιστικές Μέθοδοι, εκδόσεις Συμμετρία, σελ. 151-225, Πάτρα 1994.




ΜΕΘΟΔΟΣ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ


Σκοπός μας είναι να εκτιμήσουμε τις παραμέτρους του υποδείγματος της παλινδρόμησης, δηλαδή τους συντελεστές


β0 καιβ1 κατά τέτοιο τρόπο, ώστε η ευθεία γραμμή που θα προκύψει να περιγράφει κατά τον καλύτερο δυνατό τρόπο τη σχέση μεταξύ των μεταβλητών Χ και Υ. Η γραμμή της παλινδρόμησης πρέπει να περνάει κοντά από τα σημεία που αντιστοιχούν στα ζεύγη των παρατηρήσεων (Χi ,Yi),έτσι ώστε να ελαχιστοποιούνται τα σφάλματα της πρόβλεψης. Για να γίνει κατανομή η μέθοδος, πρέπει πρώτα να εισάγουμε μερικούς συμβολισμούς.

Έχει επικρατήσει στη διεθνή βιβλιογραφία να συμβολίζουμε με μικρούς ελληνικούς χαρακτήρες τις τιμές των παραμέτρων του πληθυσμού και με λατινικούς χαρακτήρες τις εκτιμήσεις τους από τα δεδομένα του δείγματος. Τον ίδιο συμβολισμό θα χρησιμοποιήσουμε και εδώ. Οι εκτιμήσεις από τα δεδομένα του δείγματος των συντελεστών παλινδρόμησης του πληθυσμού β0και β1 είναι οι συντελεστές b0καιb1αντίστοιχα. Μόλις οι εκτιμήσεις αυτές γίνουν γνωστές, θα είμαστε σε θέση να προβλέπουμε τις τιμές της Υ με την εξίσωση παλινδρόμησης:\hat{Y}=b_{0}+b_{1}X Δηλαδή, η \hat{Y}είναι η εκτίμηση της Ε ( Υ ) . Έτσι, κατά αναλογία με την εξίσωση που αναφέρεται στη γραμμή παλινδρόμησης του πληθυσμού, οι αποκλίσεις μεταξύ των πραγματικών τιμών της Υ και των τιμών\hat{Y}συμβολίζονται με e (όπου e τα κατάλοιπα που προκύπτουν από τις προσεγγιστικές τιμές της γραμμής παλινδρόμησης b0 + b1X στο σύνολο των n σημείων), δηλαδή : e_{i}=Y_{i}-\hat{Y}_{i} ήei = Yi − (b0 + b1Xi)για i=1,...,n Επομένως, αναζητούμε εκείνες τις τιμές των b0καιb1που θα ελαχιστοποιούν τις αποκλίσεις ( κατάλοιπα ή σφάλματα )ei.

Επειδή τα σφάλματα έχουν και θετικό και αρνητικό πρόσημο, θα προσπαθήσουμε να ελαχιστοποιήσουμε τα τετράγωνα τους και μάλιστα το άθροισμά τους. Να λοιπόν και η ονομασία της μεθόδου των ελαχίστων τετραγώνων. Το άθροισμα των τετραγώνων των αποκλίσεων για τα ζεύγη n ζεύγη των παρατηρήσεων ισούται με : \sum\limits_{i=1}^{n}{(Y_{i}-\hat{Y}_{i})^{2}=\Sigma [\Upsilon _{i}-(b_{0}+b_{1}X_{i})]}^{2}.


Έστω ότι για την παραπάνω εξίσωση έχουν εκτιμηθεί οι συντελεστές παλινδρόμησης \beta_{0}=\widehat\beta_0 και \beta_{1}=\widehat\beta_1. Ο στόχος μας είναι οι τιμές αυτές να αποκλίνουν

όσο το δυνατόν λιγότερο. Έτσι προκύπτει η γραμμή παλινδρόμησης:
Εικόνα:reggression.jpg

Η γραμμή παλινδρόμησης \hat{Y}_i
είναι η εκτίμηση της E(Y)i. Οι αποκλίσεις μεταξύ των πραγματικών  τιμών Yi και των εκτιμώμενων τιμών \hat{Y}_ iλέγονται κατάλοιπα (residuals). Τα κατάλοιπα ei είναι οι
εκτιμήσεις του διαταρακτικου όρου (Єi).:

ei=Yi-\hat{Y}_i , ή ei=\hat{Y}_i-\hat\beta_0+\hat\beta_1 Xi

Ο κύριος σκοπός της OLS είναι ο υπολογισμός των εκτιμητών β0και \widehat\beta_1που ελαχιστοποιούν το άθροισμα των τετραγώνων των καταλοίπων \sum_{i=1}^{n} x_{i}^{(e_{i}^{2})}

Παράδειγμα

Ενδιαφερόμαστε για την πρόβλεψη του μηνιαίου όγκου Υ των πωλήσεων μιας επιχείρησης όταν αυτές είναι ανεπηρέαστες χρονικών εποχών. Η ανεξάρτητη μεταβλητή Χ συμβολίζει τα έξοδα της επιχείρησης που δαπανά για διαφήμιση ανά μήνα. Θέλουμε να διαπιστώσουμε αν η διαφήμιση επηρεάζει θετικά τις πωλήσεις και να βρούμε μια σχέση που να συνδέει τις μηνιαίες πωλήσεις Υ σα συνάρτηση των μηνιαίων εξόδων της διαφήμισης.

Παρουσιάζονται τα στοιχεία για 10 επιλεγμένους τυχαίους μήνες:

  1. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ: 1.2, ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ: 101
  2. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ: 0.8, ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ: 92
  3. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ:1.0, ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ: 110
  4. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ: 1.3 , ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ: 120
  5. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ: 0.7, ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ: 90
  6. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ: 0.8, ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ:82
  7. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ: 1.0 , ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ: 93
  8. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ: 0.6, ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ: 75
  9. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ: 0.9 , ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ: 91
  10. ΕΞΟΔΑ ΔΙΑΦΗΜΙΣΗΣ Χ: 1.1, ΟΓΚΟΣ ΠΩΛΗΣΕΩΝ Υ: 101

α)Να βρεθεί η ευθεία πρόβλεψης.

\hat{\beta}=\frac{\sum_{i=1}^{n}x_{i}y_{i}-n\bar{x}\bar{y}}{\sum_{i=1}^{n}x_{i}^{2}-n(\bar{x})^{2}}=\frac{924.8-\frac{9.4959}{10}}{9.28-\frac{9.4^2}{10}}=\frac{23.34}{0.444}=52.5676\approx52.57

β)Χρησιμοποιώντας την ευθεία πρόβλεψης να βρεθεί ο όγκος πωλήσεων, όταν τα έξοδα για μηνιαία διαφήμιση είναι 1.

\hat{y}=46.49+(52.57)(1.0)=99.04

Παλινδρόμηση ελαχίστων τετραγώνων

Επειδή υπάρχουν πολλές ευθείες που περνούν ανάμεσα από τα δεδομένα σημεία (Xi, Yi), το ζητούμενο είναι να βρεθεί εκείνη η ευθεία που παρουσιάζει τη βέλτιστη προσαρμογή στα δεδομένα, δηλαδή που περνάει πιο κοντά από τα σημεία. Η ευθεία αυτή είναι η ευθεία παλινδρόμησης ελαχίστων τετραγώνων, που σημαίνει ότι από όλες τις πιθανές ευθείες που μπορούν να σχεδιαστούν στο γράφημα, αυτή έχει το μικρότερο άθροισμα τετραγώνων των αποστάσεων μεταξύ των σημείων και της ευθείας. Χρησιμοποιούμε τα τετράγωνα των αποστάσεων επειδή δεν πρέπει οι θετικές και αρνητικές τιμές να αλληλοαναιρούνται. Εναλλακτικά, μπορούμε να πούμε ότι η ευθεία ελαχίστων τετραγώνων έχει το μικρότερο άθροισμα των τετραγώνων των υπολειμματικών τιμών, δηλαδή των διαφορών των παρατηρούμενων από τις αναμενόμενες τιμές (Y − Yˆ), ή αλλιώς των σφαλμάτων πρόβλεψης. Το άθροισμα των τετραγώνων των σφαλμάτων (Sum of Squared Errors) συμβολίζεται με SSE. Eπομένως, το άθροισμα τετραγώνων των σφαλμάτων στην παλινδρόμηση είναι:

SSE=\sum_{i=1}^{n}e_i^2=\sum_{i=1}^{n}(y_i-\hat{y_i})^2


Η γραμμή ελαχίστων τετραγώνων είναι αυτή που ελαχιστοποιεί το SSE σε σχέση με τις προσεγγίσεις των b0καιb1.

Οι εξισώσεις :

\sum_{i=1}^{n}=n b_0+b_1 \sum_{i=1}^{n} x_i

\sum_{i=1}^{n}x_iy_i=b_0 \sum_{i=1}^{n}x_i+b_1 \sum_{i=1}^{n}x_i^2


Άθροισμα τετραγώνων και γινόμενα:


SS_x=\sum(x-\hat{x})^2=\sum x^2-\frac{(\sum x)^2}{n}

SS_y=\sum(y-\hat{y})^2 =\sum y^2 -\frac {(\sum y)^2} {n}

SS_{xy}=\sum(x-\hat{x})(y-\hat{y})=\sum xy-\frac{\sum x \sum y}{n}

Ελαχίστων−τετραγώνων εκτιμητές παλινδρόμησης:


b_1=\frac{SS_xy}{SS_x}

b_0=\hat{y}-b_1\hat{x}

ΠΑΡΑΔΕΙΓΜΑ ΕΦΑΡΜΟΓΗΣ ΜΕΘΟΔΟΥ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ ΜΕ ΤΗΝ ΒΟΗΘΕΙΑ ΤΟΥ ΣΤΑΤΙΣΤΙΚΟΥ ΠΑΚΕΤΟΥ R

Ο παρακάτω πίνακας δίνει το επιτόκιο στην Αμερική (USA) από το 1990 μέχρι το 1994

     ΕΤΟΣ    ΕΠΙΤΟΚΙΟ   
     1990      3.30          
     1991      3.90          
     1992      4.50          
     1993      3.49          
     1994      4.92

Εισάγουμε τα δεδομένα στο R,

> year <- c(1990, 1991, 1992, 1993, 1994)

> rate <- c(3.30, 3.90, 4.50, 3.49, 4.92)

> cor(year,rate) [1] 0.6572373

> fit <- lm(rate~year) > fit

Call: lm(formula = rate ~ year)

Coefficients: (Intercept) year

  -559.714        0.283  

> attributes(fit) $names

[1] "coefficients"  "residuals"     "effects"       "rank"         
[5] "fitted.values" "assign"        "qr"            "df.residual"  
[9] "xlevels"       "call"          "terms"         "model"        

$class [1] "lm"

> fit$coefficients[ 1 ]
(Intercept) 
  -559.714 
> fit$coefficients[ [ 1 ] ]
[1] -559.714
> fit$coefficients[ 2 ]
year 
0.283 
> fit$coefficients[ [ 2 ] ]
[1] 0.283

αν θέλουμε να κάνουμε πρόβλεψη για το 2020 > fit$coefficients[ [ 2 ] ]*2020+fit$coefficients[ [ 1] ]

[1] 11.946


βρίσκουμε τα κατάλοιπα > res <- rate- (fit$coefficients[ [ 2 ] ]*year+fit$coefficients[ [ 1 ] ]) > res [1] -0.156 0.161 0.478 -0.815 0.332

τα ενσωματώνουμε: > residuals(fit)

    1      2      3      4      5 

-0.156 0.161 0.478 -0.815 0.332

φτιάχνουμε το διάγραμμα > plot(year,rate) > abline(fit) > summary(fit)

Call:

lm(formula = rate ~ year)

Residuals:

    1      2      3      4      5 

-0.156 0.161 0.478 -0.815 0.332

Coefficients:

            Estimate Std. Error t value Pr(> | t | )
 (Intercept) -559.7140   373.2348   -1.50    0.231
 year           0.2830     0.1874    1.51    0.228
 Residual standard error: 0.5925 on 3 degrees of freedom
 Multiple R-squared: 0.432,   Adjusted R-squared: 0.2426 
 F-statistic: 2.281 on 1 and 3 DF,  p-value: 0.2281


Η θεωρία μέσα από Παράδειγμα

χρησιμοποιόντας τα δεδομένα του παραδείγματος μονοπαραγοντικής ανάλυσης που αναφέραμε προηγουμένος Παράδειγμα


Δύο είδη μεταβλητότητας δουλεύονται όταν ελέγχουμε την ισότητα των μέσων των πληθυσμών

Εάν η μηδενική υπόθεση είναι αληθές, θα αναμένουμε όλοι οι δειγματοληπτικοί μέσοι να είναι κοντά μεταξύ τους (και έτσι κοντά στον συνολικό μέσο).

Εάν η εναλλακτική υπόθεση είναι αληθές, τουλάχιστον κάποιοι από τους μέσους θα διαφέρουν.

Έτσι, μετράμε την μεταβλητότητα μεταξύ των δειγματοληπτικών μέσων.

Μεταβλητότητα μεταξύ στους δειγματοληπτικούς μέσους

Η μεταβλητότητα μεταξύ των δειγματοληπτικών μέσων μετράτε ως το άθροισμα των

τετραγώνων των αποστάσεων μεταξύ σε κάθε μέσο και τον συνολικό μέσο.

Αυτό το άθροισμα καλείται το Άθροισμα Τετραγωνικών Αγωγών (Sum of Squares for Treatments)

  SST

Στο Παράδειγμα μας οι αγωγές αντιπροσωπεύονται από τις διαφορετικές στρατηγικές διαφήμισης.

Άθροισμα τετραγώνων των αγωγών (SST)

SST= \sum_{j=1}^k n_j (\bar{x} - x)^2

Όταν οι δειγματοληπτικοί μέσοι είναι κοντά ο ένας με τον άλλο, οι αποστάσεις τους από τον συνολικό μέσο είναι μικρές, καταλήγοντας με ένα μικρό SST.

Έτσι, μεγάλο SST υποδεικνύει μεγάλη διασπορά μεταξύ των δειγματοληπτικών μέσων, που υποστηρίζει H1.


Αφού μ1= μ2 =μ3 είναι αυτό που μας ενδιαφέρει, μία στατιστική που μετράει την εγγύτητα των δειγματοληπτικών μέσων θα μας ενδιέφερε.

Μία τέτοια στατιστική υπάρχει, και καλείται διασπορά μεταξύ αγωγών. Συμβολίζεται ως SST, συντομογραφία για «Άθροισμα τετραγώνων των αγωγών », και υπολογίζεται ως είπαμε και προηγουμένως δηλαδή:

SST= \sum_{j=1}^k n_j (\bar{x} - x)^2

και φυσικά Ένα μεγάλο SST υποδεικνύει μεγάλη διασπορά μεταξύ δειγματοληπτικών μέσων και υποστηρίζει την H1.


Εάν είχαμε την περίπτωση: \bar{x}_{1} =\bar{x}_{2} =\bar{x}_{3}

τότε SST = 0 και η μηδενική υπόθεση, H0: μ1 = μ2 = μ3 Θα υποστηριζόταν.

Πιο γενικά, μία «μικρή τιμή» του SST υποστηρίζει την μηδενική υπόθεση. Η ερώτηση είναι, πόσο μικρή είναι «μικρή αρκετά»;

Τα ακόλουθα δειγματοληπτικά στατιστικά στοιχεία και ο συνολικός μέσος υπολογίζονται …

\bar{x}_1=577,55

\bar{x}_2=653.00

\bar{x}_3=608.65

ο μέσος όλων των μέσων=613.07

Εκ τούτου, η διασπορά μεταξύ αγωγών, το άθροισμα τετραγώνων των αγωγών, είναι:

SST = 20(577.55 − 613.07)2 + 20(653.00 − 613.07)2 + 20(608.65 − 613.07)2 = 57,512.23

Είναι SST = 57,512.23 «αρκετά μεγάλο» για να υποδείξουμε ότι οι μέσοι των πληθυσμών διαφέρουν;


ΑΚΟΜΑ ΕΝΑ ΠΑΡΑΔΕΙΓΜΑ

Έστω επιλέγουμε τυχαία 10(A..J) φοιτήτριες του παιδαγωγικού που εκπόνησαν μια εργασία και αυτο γιατί θέλουμε να δούμε πως επέδρασε ο χρόνος που διέθεσαν για αυτή στο βαθμό που τελικά πήραν.Ετσι έχουμε Χ για το χρόνο προετοιμασιάς και Υ για το βαθμό που πήραν, ο οποίος κυμαίνεται απο 0 έως 6.


ΕΤΣΙ έχουμε τα παρακάτω

ΓΙΑ ΤΗΝ Α:χ=2& y=2, B:x=2&y=1, C:x=4&y=1, D:x=4&y=3, E:x=6&y=2, F:x=6&y=5

G:x=8&y=5, H:x=8&y=4, I:x=10&y=6, J:x=10&y=4

ΝΑ ΒΡΕΘΟΥΝ:

1) Η ΕΥΘΕΙΑ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΤΗΣ Υ ΠΑΝΩ ΣΤΗ Χ(Υ=α+βΧ)

2)ΝΑ ΕΚΤΙΜΗΘΕΙ Ο ΒΑΘΜΟΣ ΤΗΣ ΦΟΙΤΗΤΡΙΑΣ ΕΚΕΙΝΗΣ ΠΟΥ ΑΦΙΕΡΩΣΕ 7 ΩΡΕΣ ΓΙΑ ΤΗΝ ΕΚΠΟΝΗΣΗ ΤΗΣ ΕΡΓΑΣΙΑΣ

3)ΚΑΙ ΝΑ ΥΠΟΛΟΓΙΣΤΕΙ Ο ΣΥΝΤΕΛΕΣΤΗΣ ΠΡΟΣΔΙΟΡΙΣΜΟΥ

ΕΠΙΠΛΕΟΝ ΕΧΟΥΜΕ ΣΑΝ ΔΕΔΟΜΕΝΑ:

 Σχi^2=440
 Sxy=38
 Sy/x=1.12
 Σyi=33


ΛΥΣΗ

1)ΒΡΙΣΚΟΥΜΕ:

Xi:2_2_4_4_6_6_8_8_10_10 TOTAL=60

Yi:2_1_1_3_2_5_5_4_6_4 TOTAL=33

Xi^2:4_4_16_16_36_36_64_64_100_100 TOTAL=440

Yi^2:4_1_1_9_4_25_25_16_36_16 TOTAL=137

Xi-X μέσο:-4_-4_-2_-2_0_0_2_2_4_4 TOTAL=0

(Xi-X μέσο)Yi:-8_-4_-2_-6_0_0_10_8_24_16 TOTAL=38

X μεσο=60/10=6

Yμεσο=33/10=3,3

Sxx=440-60^2/10=80

Syy=137-33^2/10=28.1

Sxy=38

ευθεία παλινδρόμησης:

α=3.3-38/80*6=0,45

β=Sxy/Sxx=38/80=0.475

ΑΡΑ Υ=0,45+0,475Χ


2)ΑΝ ΟΠΟΥ Χ=7 ΤΟΤΕ Υ=0,45+0,475*7=3,775

3)R^2=0.475*38/28.1=0.642349

ΒΙΒΛΙΟΓΡΑΦΙΑ:http://www.arnos.gr/oktonia/index.php?tomeas=1&mathima_id=847&thechapter=08

--Bma1645 21:08, 20 Οκτωβρίου 2011 (EEST)ΤΣΑΚΙΡΑΚΗ ΑΛΚΥΟΝΗ


Ιδιότητες της Γραμμικής Παλινδρόμησης του Δείγματος

Η γραμμή παλινδρόμησης του δείγματος, \widehat {Y} = \widehat {\beta}_0 + \widehat{\beta}_1 X που εκτιμάται με την μέθοδο ελαχίστων τετραγώνων, έχει τις ακόλουθες βασικές ιδιότητες:

1) Η γραμμή παλινδρόμησης του δείγματος παιρνάει από το σημείο που ορίζεται από το μέσο των Υ και Χ. Αν στην εξίσωση \widehat {Y} = \widehat {\beta}_0 + \widehat{\beta}_1 X αντικαταστή σουμε όπου Χ τον μέσο του \bar {X}, η τιμή που παίρνουμε για το \widehat {Y} είναι ο μέσος \bar{Y} από το δείγμα

2) Το άθροισμα των τιμών της Υ από το δείγμα είναι ίσο με το αθροισμα των τιμών που υπολογίζουμε από την παλινδρόμηση, δηλαδή \Sigma Y = \Sigma \widehat{Y}

3) Το άθροισμα των καταλοίπων είναι μηδέν, δηλαδή \Sigma \widehat {u} = 0

4) Το άθροισμα των γινομένων των τιμών της Χ και των καταλοίπων είναι μηδέν, δηλαδή \Sigma X \widehat{u} = 0

5) Το άθροισμα των γινομένων των καταλοίπων και των τιμών Υ που υπολογίζουμε από την παλινδρόμηση του δείγματος είναι μηδέν, δηλαδή \Sigma \widehat{Y} \widehat{u} = 0

Ανακτήθηκε από το "http://androulakis.bma.upatras.gr/mediawiki/index.php/%CE%9C%CE%AD%CE%B8%CE%BF%CE%B4%CE%BF%CF%82_%CE%B5%CE%BB%CE%B1%CF%87%CE%AF%CF%83%CF%84%CF%89%CE%BD_%CF%84%CE%B5%CF%84%CF%81%CE%B1%CE%B3%CF%8E%CE%BD%CF%89%CE%BD".

Αυτή η σελίδα έχει προσπελαστεί 20.080 φορές. Η σελίδα αυτή τροποποιήθηκε τελευταία φορά στις 17:52, 28 Αυγούστου 2013.