Προβλήματα Μαθηματικών

Μαΐου 25, 2008

Στατιστικά περίεργα

Filed under: Λυμένα Προβλήματα,Με υπόδειξη — Mihalis Kolountzakis @ 4:56 μμ

Ας υποθέσουμε ότι έχουμε ένα μεγάλο πληθυσμό ανθρώπων του οποίου θέλουμε να εκτιμήσουμε το μέσο ύψος αλλά και το πόσο αυτό κυμαίνεται μέσα στον πληθυσμό. Λίγο πιο αυστηρά, θέλουμε να εκτιμήσουμε τη μέση τιμή {\mathbb E}X και τη διασπορά \sigma^2(X) της τυχαίας μεταβλητής X που προκύπτει αν επιλέξουμε ένα τυχαίο άτομο και μετρήσουμε το ύψος του, με όλα τα άτομα εξίσου πιθανά να επιλεγούν.

Ο τρόπος που το κάνουμε είναι να διαλέξουμε N φορές τυχαία (N μεγάλο) ένα άτομο και να μετρήσουμε το ύψος του, έστω x_i, i=1,\ldots,N. Έπειτα εκτιμούμε το μέσο ύψος του πληθυσμού από την ποσότητα

\displaystyle \overline{x} = \frac{1}{N} \sum_{i=1}^N x_i.

Θυμόμαστε τώρα το γενικό ορισμό \sigma^2(X) = {\mathbb E}(X - {\mathbb E}X)^2 και εκτιμούμε ανάλογα τη διασπορά του ύψους από την ποσότητα

\displaystyle S^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2.

Όμως ο στατιστικός φίλος μας, στον οποίο δείχνουμε τη μέθοδό μας, ισχυρίζεται ότι δεν πρέπει να το κάνουμε έτσι αλλά ως εξής:

\displaystyle S^2 = \frac{1}{N-1} \sum_{i=1}^N (x_i - \overline{x})^2.

Η αλήθεια είναι ότι αυτές οι δύο ποσότητες ελάχιστα διαφέρουν μεταξύ τους όταν το N είναι μεγάλο. Όμως ποιος έχει δίκιο;

Advertisements

5 Σχόλια »

  1. Μπορεί να λέω χαζομάρες, αλλά νομίζω ότι ο τύπος με το 1/Ν είναι πιο σωστός από αυτόν με το 1/(Ν-1) με την εξής έννοια: και οι δύο τύποι προσεγγίζουν τη μέση τιμή μιας τυχαίας μεταβλητής (της (Χ-ΕΧ)^2). Ήδη έχεις επιλέξει μια προσέγγιση της συνάρτησης του expectation από τον αριθμητικό μέσο(για να εκτιμήσεις την Χ). Με το να βάζεις τον τύπο με το 1/(Ν-1) σαν εκτίμηση για τη διασπορά είναι σαν να χρησιμοποιείς διαφορετική προσέγγιση στο expectation για τη μεταβλητή Χ από ότι για τη μεταβλητή (Χ-ΕΧ)^2, κάτι που δε γνωρίζω πώς μπορούσε να αιτιολογείται. Μπορεί όμως να αιτιολογείται και απλά εγώ να μην το βλέπω!

    Μου αρέσει!

    Σχόλιο από ikonst — Μαΐου 25, 2008 @ 7:04 μμ

  2. Οι στατιστικοί γνωρίζουν -από την εποχή του Pearson- ότι η διαίρεση με n-1 δίνει καλύτερη εκτίμηση της διακύμανσης στην περίπτωση που δεν είναι διαθέσιμος ολόκληρος ο υπό μελέτη πληθυσμός, αλλά λαμβάνεται δείγμα αυτού. Άρα ο στατιστικός του παραδείγματος έχει βάσιμες αντιρρήσεις, αν και λόγω του ότι η διαφορά είναι ασήμαντη, θα έλεγα ότι έχει δίκιο αλλά ‘κατά παράδοση’.

    Το γιατί είναι ορθότερο να διαιρέσουμε με n-1 είναι λίγο σύνθετο να απαντηθεί. Έχει να κάνει με το ότι κατά τον υπολογισμό της δειγματικής διακύμανσης χάνεται ένας βαθμός ελευθερίας (οι αποκλίσεις από το μέσο πρέπει να αθροίζουν στο μηδέν), άρα στον παρονομαστή n-1.

    Περιμένω μια πιο αναλυτική απάντηση.

    ΥΓ. Μπράβο, εξαιρετικό blog.

    Μου αρέσει!

    Σχόλιο από amarkos — Μαΐου 26, 2008 @ 1:48 πμ

  3. Υπόδειξη:

    Η ποσότητα S^2 είναι κι αυτή μια τυχαία μεταβλητή όπως και τα x_i, \overline{x} που συμμετέχουν στον ορισμό της.

    Βρείε τη μέση τιμή της, κι αυτό θα σας βοηθήσει να αποφανθείτε ποιο είναι το σωστό παραπάνω.

    Μου αρέσει!

    Σχόλιο από Mihalis Kolountzakis — Μαΐου 28, 2008 @ 12:33 πμ

  4. Αν χρησιμοποιήσουμε το δεύτερο τύπο με το n-1 τότε ισχύει \mathbb{E}(S^2)=\sigma^2 συνεπώς ο εκτιμητής που πέρνουμε με το δεύτερο τύπο είναι αμερόληπτος σε αντίθεση με τον πρώτο τύπο για τον οποίο ισχύει \mathbb{E}(S^2)=\frac{n-1}{n}\cdot\sigma^2 \neq \sigma^2.
    Άρα είναι καλύτερο να χρησιμοποιούμε το δεύτερο τύπο με το n-1 στον παρονομαστή.

    Μου αρέσει!

    Σχόλιο από steliosdes — Ιουνίου 1, 2008 @ 9:56 μμ

  5. Πολύ σωστά.

    Αυτή είναι μια περίπτωση όπου η διαίσθηση συνήθως οδηγεί σε λάθος συμπεράσματα (πράγμα όχι ασυνήθιστο σε πράγματα πιθανοθεωρητικά).

    Φαίνεται επίσης πως είναι ένας τύπος που πολλοί μαθαίνουν, ειδικά σε εφαρμοσμένες επιστήμες, και λίγοι κατανοούν το γιατί χρειάζεται το -1.

    Δε νομίζω πως έχω καταλάβει αυτό που είπε ο amarkos σε σχέση με τους βαθμούς ελευθερίας. Ίσως να υπάρχει και κάποια εξήγηση του -1 με κάποιο τέτοιο επιχείρημα αλλά δεν την ξέρω.

    Μου αρέσει!

    Σχόλιο από Mihalis Kolountzakis — Ιουνίου 1, 2008 @ 10:34 μμ


RSS feed for comments on this post. TrackBack URI

Σχολιάστε

Συνδεθείτε για να δημοσιεύσετε το σχόλιο σας:

Λογότυπο WordPress.com

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό WordPress.com. Αποσύνδεση / Αλλαγή )

Φωτογραφία Twitter

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Twitter. Αποσύνδεση / Αλλαγή )

Φωτογραφία Facebook

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Facebook. Αποσύνδεση / Αλλαγή )

Φωτογραφία Google+

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Google+. Αποσύνδεση / Αλλαγή )

Σύνδεση με %s

Δημιουργήστε ένα δωρεάν ιστότοπο ή ιστολόγιο στο WordPress.com.

Αρέσει σε %d bloggers: