Δοκιμή υπόθεσης

Ένα απλό και σύντομο σεμινάριο για τη δοκιμή υπόθεσης χρησιμοποιώντας το Python

Εικόνα από: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

Σε αυτό το blog, θα δώσω ένα σύντομο σεμινάριο σχετικά με τη δοκιμή υπόθεσης χρησιμοποιώντας στατιστικές μεθόδους στο Python. Η δοκιμή υπόθεσης είναι μέρος της επιστημονικής μεθόδου με την οποία όλοι γνωρίζουμε, κάτι που πιθανώς μάθαμε στα πρώτα μας εκπαιδευτικά χρόνια. Ωστόσο, στις στατιστικές, πολλά πειράματα γίνονται σε ένα δείγμα ενός πληθυσμού.

«Ο καθορισμός του δείγματος των παρατηρήσεων για μια προτεινόμενη εξήγηση, γενικά, απαιτεί από εμάς να κάνουμε ένα συμπέρασμα, ή όπως το λέμε οι στατιστικολόγοι, να αιτιολογήσουμε με την αβεβαιότητα. Ο συλλογισμός με αβεβαιότητα είναι ο πυρήνας των στατιστικών συμπερασμάτων και γίνεται συνήθως χρησιμοποιώντας μια μέθοδο που ονομάζεται Null Hypothesis Significance Testing. " - Φούρνοι.

Ως παράδειγμα για αυτό το blog, θα χρησιμοποιήσω ένα ευρωπαϊκό σύνολο δεδομένων ποδοσφαίρου που βρέθηκε στο Kaggle και θα πραγματοποιήσω δοκιμές υπόθεσης. Το σύνολο δεδομένων μπορεί να βρεθεί εδώ.

Βήμα 1

Κάντε μια παρατήρηση

Το πρώτο βήμα είναι η παρατήρηση φαινομένων. Σε αυτήν την περίπτωση, θα είναι: Υπάρχει αντίκτυπος της επιθετικής άμυνας στους επιτρεπόμενους στόχους κατά μέσο όρο;

Βήμα 2

Εξετάστε την έρευνα

Μια καλή νοοτροπία που πρέπει να ακολουθήσετε είναι η εργασία πιο έξυπνη και όχι πιο δύσκολη. Ένα καλό πράγμα που πρέπει να κάνετε είναι να δείτε αν υπάρχει ήδη έρευνα σχετικά με την παρατήρησή σας. Εάν ναι, μπορεί να βοηθήσει στην απάντηση στην ερώτησή μας. Το να γνωρίζουμε ήδη υπάρχουσες έρευνες ή πειράματα θα μας βοηθήσει να δομήσουμε καλύτερα το πείραμά μας, ή ίσως ακόμη και να απαντήσουμε στην ερώτησή μας και να μην χρειαστεί να πραγματοποιήσουμε το πείραμα.

Βήμα 3

Σχηματίστε μια μηδενική υπόθεση και μια εναλλακτική υπόθεση

Μια εναλλακτική υπόθεση είναι η μορφωμένη μας εικασία και μια μηδενική υπόθεση είναι το αντίθετο. Εάν η εναλλακτική υπόθεση δηλώνει ότι υπάρχει σημαντική σχέση μεταξύ δύο μεταβλητών, η μηδενική υπόθεση δηλώνει ότι δεν υπάρχει σημαντική σχέση.

Η μηδενική υπόθεσή μας θα είναι: Δεν υπάρχει στατιστική διαφορά στα επιτρεπόμενα γκολ με ομάδες με βαθμολογία αμυντικής επιθετικότητας μεγαλύτερη ή ίση με 65 έναντι ομάδων κάτω των 65.

Εναλλακτική υπόθεση: Υπάρχει στατιστική διαφορά στους επιτρεπόμενους στόχους με ομάδες με βαθμολογία αμυντικής επιθετικότητας μεγαλύτερη από ή ίση με 65 έναντι ομάδων κάτω των 65.

Βήμα 4

Προσδιορίστε εάν η υπόθεσή μας είναι δοκιμή μονής ουράς ή δοκιμή δύο ουρών.

Δοκιμή με μία ουρά

"Εάν χρησιμοποιείτε ένα επίπεδο σημασίας 0,05, μια δοκιμή με ένα άκρο επιτρέπει σε όλους σας το άλφα να δοκιμάσουν τη στατιστική σημασία στη μία κατεύθυνση ενδιαφέροντος." Ένα παράδειγμα ενός μονοπατιού τεστ θα ήταν "Οι ομάδες ποδοσφαίρου με βαθμολογία επιθετικότητας μικρότερη από 65 επιτρέπουν στατιστικά σημαντικά περισσότερα γκολ από ομάδες με βαθμολογία χαμηλότερη από 65".

Δοκιμή δύο ουρών

"Εάν χρησιμοποιείτε επίπεδο σημασίας 0,05, μια δοκιμή δύο όψεων επιτρέπει στο ήμισυ του άλφα σας να ελέγχει τη στατιστική σημασία σε μια κατεύθυνση και το ήμισυ του άλφα σας να ελέγχει τη στατιστική σημασία στην άλλη κατεύθυνση. Αυτό σημαίνει ότι 0,025 είναι σε κάθε ουρά της κατανομής του στατιστικού ελέγχου. "

Με ένα τετράπλευρο τεστ, ελέγχετε τη στατιστική σημασία και στις δύο κατευθύνσεις. Στην περίπτωσή μας, δοκιμάζουμε τη στατιστική σημασία και στις δύο κατευθύνσεις.

Βήμα 5

Ορίστε ένα επίπεδο σημασίας κατωφλίου (άλφα)

(τιμή άλφα): Το οριακό όριο στο οποίο είμαστε εντάξει με την απόρριψη της μηδενικής υπόθεσης. Μια τιμή άλφα μπορεί να είναι οποιαδήποτε τιμή που ορίζουμε μεταξύ 0 και 1. Ωστόσο, η πιο κοινή τιμή άλφα στην επιστήμη είναι 0,05. Το σετ άλφα στο 0,05 σημαίνει ότι είμαστε εντάξει με την απόρριψη της μηδενικής υπόθεσης, παρόλο που υπάρχει πιθανότητα 5% ή λιγότερο ότι τα αποτελέσματα οφείλονται σε τυχαιότητα.

Τιμή P: Η υπολογιζόμενη πιθανότητα άφιξης σε αυτά τα δεδομένα τυχαία.

Αν υπολογίσουμε μια τιμή p και φτάσει στο 0,03, μπορούμε να το ερμηνεύσουμε λέγοντας «Υπάρχει πιθανότητα 3% τα αποτελέσματα που βλέπω να οφείλονται στην τυχαιότητα ή στην καθαρή τύχη».

Εικόνα από το Learn.co

Στόχος μας είναι να υπολογίσουμε την τιμή p και να τη συγκρίνουμε με το άλφα μας. Όσο χαμηλότερο είναι το άλφα τόσο πιο αυστηρή είναι η δοκιμή.

Βήμα 6

Εκτελέστε δειγματοληψία

Εδώ έχουμε το σύνολο δεδομένων μας που ονομάζεται ποδόσφαιρο. Για τη δοκιμή μας, χρειαζόμαστε μόνο δύο στήλες στο σύνολο δεδομένων μας: team_def_aggr_rating και goal_allowed. Θα το φιλτράρουμε σε αυτές τις δύο στήλες και στη συνέχεια θα δημιουργήσουμε δύο υποσύνολα για ομάδες με βαθμολογία αμυντικής επίθεσης μεγαλύτερη από ή ίση με 65 και ομάδες με βαθμολογία αμυντικής επιθετικότητας κάτω από 65.

Ακριβώς για να ανακεφαλαιώσουμε το τεστ υπόθεσης:

Αντίκτυπος της επιθετικής άμυνας στους επιτρεπόμενους στόχους κατά μέσο όρο. Null Υπόθεση: Δεν υπάρχει στατιστική διαφορά στους επιτρεπόμενους στόχους με ομάδες με βαθμολογία αμυντικής επιθετικότητας μεγαλύτερη από ή ίση με 65 έναντι ομάδων κάτω από 65. Εναλλακτική υπόθεση: Υπάρχει στατιστική διαφορά στα επιτρεπόμενα γκολ με ομάδες με βαθμολογία αμυντικής επιθετικότητας μεγαλύτερη ίσο ή ίσο με 65 έναντι ομάδων κάτω των 65. Δίχρωμη δοκιμή Alpha: 0,05

Τώρα έχουμε δύο λίστες δειγμάτων στα οποία μπορούμε να εκτελέσουμε στατιστικά τεστ. Πριν από αυτό το βήμα, θα σχεδιάσω τις δύο διανομές για να πάρω ένα οπτικό.

Βήμα 7

Εκτελέστε δοκιμή δύο δειγμάτων

Το t-test δύο δειγμάτων χρησιμοποιείται για να προσδιοριστεί εάν δύο μέσα πληθυσμού είναι ίδια. Για αυτό, θα χρησιμοποιήσουμε τη μονάδα Python που ονομάζεται statsmodels. Δεν θα αναφερθώ σε πολλές λεπτομέρειες σχετικά με τα statsmodels, αλλά μπορείτε να δείτε την τεκμηρίωση εδώ.

Βήμα 8

Αξιολογήστε και ολοκληρώστε

Θυμηθείτε ότι το άλφα που ορίσαμε ήταν = 0,05. Όπως μπορούμε να δούμε από τα αποτελέσματα των δοκιμών μας ότι η τιμή p είναι μικρότερη από την τιμή alpha. Μπορούμε να απορρίψουμε την μηδενική υπόθεσή μας και με 95% εμπιστοσύνη αποδεχόμαστε την εναλλακτική μας υπόθεση.

Ευχαριστούμε που το διαβάσατε! Για πιο εις βάθος δοκιμές υπόθεσης, μπορείτε να δείτε αυτό το ομαδικό έργο στο GitHub I στο οποίο συμμετείχα στη δοκιμή υπόθεσης εδώ.

Πόροι:

Φούρνοι, Μάθιου. "Στατιστικά και η" Επιστημονική Μέθοδος "Ανακτήθηκε από το YourStatsGuru. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Εισαγωγή στο SAS. UCLA: Στατιστική συμβουλευτική ομάδα. από https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (πρόσβαση Μάιο 16, 2019).

Εγχειρίδιο Στατιστικής Μηχανικής. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm