Περιεχόμενο
Στις στατιστικές, η Gaussian ή η κανονική κατανομή χρησιμοποιείται για να χαρακτηρίσει πολύπλοκα συστήματα με πολλούς παράγοντες. Όπως περιγράφεται στην Ιστορία Στατιστικής του Stephen Stigler, ο Abraham De Moivre εφευρέθηκε η διανομή που φέρει το όνομα του Karl Fredrick Gauss. Η συμβολή του Gauss έγκειται στην εφαρμογή της διανομής στην προσέγγιση των ελαχίστων τετραγώνων για την ελαχιστοποίηση του σφάλματος στην τοποθέτηση δεδομένων με μια γραμμή καλύτερης προσαρμογής. Κατά συνέπεια, κατέστησε τη σημαντικότερη κατανομή σφαλμάτων στις στατιστικές.
Κίνητρο
Ποια είναι η κατανομή ενός δείγματος δεδομένων; Τι γίνεται αν δεν γνωρίζετε την υποκείμενη διανομή δεδομένων; Υπάρχει κάποιος τρόπος να δοκιμάσετε υποθέσεις σχετικά με τα δεδομένα χωρίς να γνωρίζετε την υποκείμενη διανομή; Χάρη στο Θεώρημα του Κεντρικού Ορίου, η απάντηση είναι ναι.
Δήλωση του Θεωρήματος
Δηλώνει ότι ένας μέσος όρος δειγματοληψίας από έναν άπειρο πληθυσμό είναι περίπου φυσιολογικός ή Gaussian, με τον ίδιο τρόπο με τον υποκείμενο πληθυσμό και διακύμανση ίση με τη μεταβλητότητα του πληθυσμού διαιρούμενη με το μέγεθος του δείγματος. Η προσέγγιση βελτιώνεται καθώς το μέγεθος του δείγματος γίνεται μεγάλο.
Η δήλωση προσέγγισης είναι μερικές φορές εσφαλμένη ως συμπέρασμα σχετικά με τη σύγκλιση σε μια κανονική κατανομή. Δεδομένου ότι η προσέγγιση της κανονικής κατανομής αλλάζει καθώς αυξάνεται το μέγεθος του δείγματος, μια τέτοια δήλωση είναι παραπλανητική.
Το θεώρημα αναπτύχθηκε από τον Pierre Simon Laplace.
Γιατί είναι παντού
Οι κανονικές κατανομές είναι πανταχού παρούσες. Ο λόγος προέρχεται από το κεντρικό όριο θεώρημα. Πολλές φορές, όταν μετριέται μια τιμή, είναι το αποτέλεσμα του αποτελέσματος πολλών ανεξάρτητων μεταβλητών. Ως εκ τούτου, η τιμή που μετράται η ίδια έχει δείγμα-μέση ποιότητα σε αυτήν. Για παράδειγμα, η κατανομή των επιδόσεων του αθλητή μπορεί να έχει σχήμα καμπάνας, ως αποτέλεσμα των διαφορών στη διατροφή, την κατάρτιση, τη γενετική, την καθοδήγηση και την ψυχολογία. Ακόμη και τα ύψη των ανδρών έχουν κανονική κατανομή, συνιστώντας πολλούς βιολογικούς παράγοντες.
Gaussian Copulas
Αυτό που ονομάζεται «λειτουργία copula» με διανομή Gauss ήταν το 2009 το νέο, λόγω της χρήσης του στην εκτίμηση του κινδύνου επένδυσης σε εξασφαλισμένα ομόλογα. Η κατάχρηση της λειτουργίας συνέβαλε στη χρηματοπιστωτική κρίση του 2008-2009. Παρόλο που υπήρχαν πολλές αιτίες της κρίσης, πιθανότατα δεν θα έπρεπε να είχε χρησιμοποιηθεί η Gaussian διανομή. Μια λειτουργία με παχύτερη ουρά θα είχε μεγαλύτερη πιθανότητα σε ανεπιθύμητα συμβάντα.
Παραγωγή
Το θεώρημα του κεντρικού ορίου μπορεί να αποδειχθεί σε πολλές γραμμές αναλύοντας τη συνάρτηση δημιουργίας στιγμής (mgf) (μέση τιμή δείγματος - μέσο πληθυσμού) / β (διακύμανση πληθυσμού / μέγεθος δείγματος) ως συνάρτηση της mgf του υποκείμενου πληθυσμού. Το τμήμα προσέγγισης του θεωρήματος εισάγεται με την επέκταση του mgf του πληθυσμού του υποκείμενου πληθυσμού ως σειρά ισχύος, και στη συνέχεια, οι περισσότεροι όροι είναι ασήμαντοι καθώς το μέγεθος του δείγματος γίνεται μεγάλο.
Μπορεί να αποδειχθεί σε πολύ λιγότερες γραμμές χρησιμοποιώντας μια επέκταση Taylor στη χαρακτηριστική εξίσωση της ίδιας λειτουργίας και κάνοντας το μέγεθος του δείγματος μεγάλο.
Υπολογιστική ευκολία
Ορισμένα στατιστικά μοντέλα υποθέτουν ότι τα σφάλματα είναι Gaussian. Αυτό επιτρέπει τη χρήση κατανομών των λειτουργιών των κανονικών μεταβλητών, όπως η διανομή chi-square και F σε δοκιμές υποθέσεων. Συγκεκριμένα, στη δοκιμή F, η στατιστική F αποτελείται από ένα λόγο chi-square κατανομών, οι οποίες είναι οι ίδιες λειτουργίες μιας παραμέτρου κανονικής διακύμανσης. Η αναλογία των δύο προκαλεί τη διακύμανση της διακύμανσης, επιτρέποντας τη δοκιμή υποθέσεων χωρίς γνώση των διακυμάνσεων εκτός από την ομαλότητα και τη σταθερότητά τους.