Το περασμένο καλοκαίρι (14 Ιουνίου 2005) έγινε νέο παγκόσμιο ρεκόρ στα 100 μέτρα (9,77) από τον Τζαμαϊκανό Asafa Powell, στα Τσικλητήρια της Αθήνας. Πριν από 37 χρόνια, τον Ιούνιο του 1968 ο Jim Hines ήταν ο πρώτος άνθρωπος που έτρεξε τα 100 μέτρα σε λιγότερο από 10 δευτερόλεπτα. Δεν θα σχολιάσω το συγκεκριμένο γεγονός, περί ντόπινγκ κ.λπ. Οι επιστήμονες λένε ότι είναι αδύνατο για το ανθρώπινο σώμα να τρέξει τα 100 μέτρα σε λιγότερο από 10 δευτερόλεπτα.
Μπήκα στην Wikipedia και διάβασα την εξέλιξη των ρεκόρ στα 100 μέτρα ανδρών. Στο γράφημα αναφέρεται η εξίσωση της παλινδρόμησης χρόνος = -0,4403 x ln(έτος – 1900) + 11,853, αλλά χωρίς το r2. Βάζοντας τα δεδομένα στο SPSS παίρνω την εξίσωση χρόνος = -0,7455 x ln(έτος -1867,8) + 13,433 με r2=0,93187. Το δικό μου μοντέλο είναι πολύ κοντά σε αυτό της Wikipedia, αλλά δεν είναι αυτό το θέμα. Στη λεζάντα του γραφήματος αναφέρεται επίσης ότι «αν ο υπολογισμός είναι σωστός, το 2100 το ρεκόρ θα κατεβεί στα 9,52 δευτερόλεπτα» (9,37 με το δικό μου μοντέλο)!
Εδώ ακριβώς είναι το πρόβλημα. Η παλινδρόμηση ως στατιστική μέθοδος δεν μπορεί να κάνει προβλέψεις για την εξαρτημένη μεταβλητή εκτός των διαθέσιμων ορίων της ανεξάρτητης. Είναι ένα λάθος που το βλέπω συχνά σε επιστημονικές εργασίες. Στη συγκεκριμένη περίπτωση, δηλαδή, το μοντέλο δεν μπορεί να κάνει πρόβλεψη για το μέλλον ή εκτίμηση για το παρελθόν, πέρα από το μέγιστο ή το ελάχιστο έτος για το οποίο έχουμε διαθέσιμα στοιχεία. Γι’ αυτό και οι γραμμές του διαστήματος εμπιστοσύνης «απομακρύνονται» από τη γραμμή παλινδρόμησης στα άκρα της. Ένα άλλο παράδειγμα: αν κάνουμε παλινδρόμηση του μέσου ύψους των Ελλήνων τις τελευταίες δεκαετίες θα βρούμε ένα μοντέλο με αυξητική τάση. Αν προσπαθήσουμε να υπολογίσουμε το μέσο ύψος το έτος 2100 θα βρούμε ότι οι Έλληνες θα είναι γίγαντες! Αντίθετα, το 1700 θα ήταν νάνοι!
Σε τι μας χρησιμεύει τότε η παλινδρόμηση; Με την παλινδρόμηση υπολογίζουμε την εξαρτημένη μεταβλητή, πάντα μέσα στα όρια των δεδομένων μας, σε περιοχές που αυτά μάς λείπουν ή για να εκτιμήσουμε αυτή την μεταβλητή σε μια συγκεκριμένη περιοχή με κάποια βεβαιότητα. Π.χ. μπορούμε να πούμε με αρκετή βεβαιότητα ότι το έτος 1956 το παγκόσμιο ρεκόρ ήταν 10,09. Στην πραγματικότητα το 1956 έγινε τέσσερις φορές χρόνος 10,1 και τέσσερις 10,2 (μέσος 10,15). Επίσης, θα μπορούσαμε να εκτιμήσουμε το χρόνο που θα μπορούσε να έχει επιτευχθεί το 1998 (χρονιά που δεν σημειώθηκε ρεκόρ): 9,80. Για να κάνουμε πρόβλεψη υπάρχουν άλλα στατιστικά εργαλεία. Η παλινδρόμηση δεν είναι γι’ αυτή τη δουλειά.
Αν έχουν νόημα ή πρακτική αξία όλα αυτά βρίσκεται στην κρίση του παρατηρητή-ερευνητή. Αυτό δεν την ενδιαφέρει τη στατιστική. Η κάθε στατιστική μέθοδος μάς δίνει τη δυνατότητα να εξαγάγουμε συμπεράσματα. Αν αυτά είναι λανθασμένα δεν φταίει η μέθοδος.