Hypotesetesting er en nødvendig prosedyre i statistikk. En hypotesetest evaluerer to gjensidig utelukkende utsagn for å bestemme hvilken utsagn som er best støttet av prøvedataene. Når et funn sies å være statistisk signifikant, skyldes det en hypotesetest.
Bekreftelsesmetoder
Metoder for å teste statistiske hypoteser er metoder for statistisk analyse. Vanligvis sammenlignes to sett med statistikk, eller et utvalgt datasett sammenlignes med et syntetisk datasett fra en idealisert modell. Dataene må tolkes på en slik måte at de tilfører nye betydninger. Du kan tolke dem ved å anta en viss struktur i sluttresultatet og bruke statistiske metoder for å bekrefte eller avvise antakelsen. Forutsetningen kalles en hypotese, og de statistiske testene som brukes til dette formålet kalles statistiske hypoteser.
H0- og H1-hypoteser
Det er to hovedbegrepene statistisk testing av hypoteser - den såk alte "hoved- eller nullhypotesen" og " alternativ hypotese". De kalles også Neyman-Pearson-hypoteser. Den statistiske testantagelsen kalles nullhypotesen, hovedhypotesen, eller H0 for kort. Det blir ofte referert til som standardantakelsen eller antakelsen om at ingenting har endret seg. Et brudd på testantagelsen blir ofte referert til som den første hypotesen, alternativ hypotese eller H1. H1 er en forkortelse for en annen hypotese, fordi alt vi vet om den er at H0-dataene kan forkastes.
Før man forkaster eller ikke forkaster nullhypotesen, må testresultatet tolkes. En sammenligning anses som statistisk signifikant dersom forholdet mellom datasettene neppe er implementeringen av nullhypotesen i henhold til terskelsannsynligheten – signifikansnivået. Det finnes også godhetskriterier for statistisk hypotesetesting. Dette er navnet på hypotesetestkriteriet, som er assosiert med den antatte loven om den ukjente fordelingen. Dette er et numerisk mål på avviket mellom den empiriske og den teoretiske fordelingen.
Prosedyre og kriterier for testing av statistiske hypoteser
De vanligste hypotesevalgsmetodene er basert på enten Akaike-informasjonskriteriet eller den Bayesianske koeffisienten. Statistisk hypotesetesting er en nøkkelteknikk i både inferens og Bayesiansk inferens, selv om de to typene har bemerkelsesverdige forskjeller. Statistiske hypotesetesterdefinere en prosedyre som kontrollerer sannsynligheten for feilaktig avgjørelse om en feil mislighold eller nullhypotese. Prosedyren er basert på hvor sannsynlig det er at det fungerer. Denne sannsynligheten for å ta en feil avgjørelse er usannsynligheten for at nullhypotesen er sann og at ingen spesiell alternativ hypotese eksisterer. Testen kan ikke vise om den er sann eller usann.
Alternative metoder for beslutningsteori
Det finnes alternative metoder for beslutningsteori, der null- og førstehypotesen vurderes på mer lik linje. Andre beslutningstilnærminger, som Bayesiansk teori, forsøker å balansere konsekvensene av dårlige beslutninger på tvers av alle muligheter i stedet for å fokusere på en enkelt nullhypotese. En rekke andre tilnærminger for å avgjøre hvilken av hypotesene som er riktige er basert på dataene, hvilke av dem som har de ønskede egenskapene. Men hypotesetesting er den dominerende tilnærmingen til dataanalyse innen mange vitenskapsfelt.
Test den statistiske hypotesen
Når ett sett med resultater skiller seg fra et annet sett, må man stole på statistisk hypotesetester eller statistiske hypotesetester. Tolkningen deres krever en skikkelig forståelse av p-verdier og kritiske verdier. Det er også viktig å forstå at, uavhengig av signifikansnivå, kan tester fortsatt inneholde feil. Derfor er konklusjonen kanskje ikke riktig.
Testprosessen består avflere trinn:
- En innledende hypotese lages for forskning.
- Relevante null- og alternative hypoteser er angitt.
- Forklarer statistiske antakelser om utvalget i testen.
- Avgjøre hvilken test som er passende.
- Velg signifikansnivået og sannsynlighetsterskelen som nullhypotesen vil bli forkastet under.
- Fordelingen av nullhypoteseteststatistikken viser de mulige verdiene der nullhypotesen forkastes.
- Beregning pågår.
- Det tas en beslutning om å forkaste eller akseptere nullhypotesen til fordel for et alternativ.
Det er et alternativ som bruker en p-verdi.
Betydningstester
Rene data er til ingen praktisk nytte uten tolkning. I statistikk, når det gjelder å stille spørsmål om data og tolke resultater, brukes statistiske metoder for å sikre nøyaktigheten eller sannsynligheten for svar. Når man tester statistiske hypoteser, kalles denne klassen av metoder for statistisk testing, eller signifikanstester. Begrepet "hypotese" minner om vitenskapelige metoder, hvor hypoteser og teorier undersøkes. I statistikk resulterer en hypotesetest i en mengde gitt en gitt antagelse. Den lar deg tolke om en antagelse er sann eller om det er gjort et brudd.
Statistisk tolkning av tester
Hypoteseprøverbrukes til å bestemme hvilke forskningsresultater som vil føre til forkastelse av nullhypotesen for et forhåndsbestemt nivå av betydning. Resultatene av en statistisk hypotesetest må tolkes slik at det kan jobbes videre med den. Det er to vanlige former for statistiske hypotesetestingskriterier. Dette er p-verdi og kritiske verdier. Avhengig av det valgte kriteriet, må resultatene som oppnås tolkes forskjellig.
Hva er en p-verdi
Output beskrives som statistisk signifikant ved tolkning av p-verdien. Faktisk betyr denne indikatoren sannsynligheten for feil hvis nullhypotesen forkastes. Med andre ord kan den brukes til å navngi en verdi som kan brukes til å tolke eller kvantifisere et testresultat, og til å bestemme sannsynligheten for feil ved å forkaste nullhypotesen. Du kan for eksempel utføre en normalitetstest på et utvalg data og finne ut at det er liten sjanse for avvik. Nullhypotesen trenger imidlertid ikke å forkastes. En statistisk hypotesetest kan returnere en p-verdi. Dette gjøres ved å sammenligne verdien av p mot en forhåndsbestemt terskelverdi k alt signifikansnivået.
Betydningsnivå
Betydningsnivået er ofte skrevet med den greske små bokstaven "alfa". Den generelle verdien som brukes for alfa er 5 %, eller 0,05. En mindre alfaverdi antyder en mer pålitelig tolkning av nullhypotesen. P-verdien sammenlignes medforhåndsvalgt alfaverdi. Resultatet er statistisk signifikant hvis p-verdien er mindre enn alfa. Signifikansnivået kan inverteres ved å trekke det fra en. Dette gjøres for å bestemme konfidensnivået til hypotesen gitt de observerte prøvedataene. Ved bruk av denne metoden for å teste statistiske hypoteser, er P-verdien sannsynlighet. Dette betyr at man i prosessen med å tolke resultatet av en statistisk test ikke vet hva som er sant eller usant.
Statistisk hypotesetestingsteori
Avvisning av nullhypotesen betyr at det er nok statistisk bevis for at det ser sannsynlig ut. Ellers betyr det at det ikke er nok statistikk til å avvise det. Man kan tenke på statistiske tester i form av dikotomien av å forkaste og akseptere nullhypotesen. Faren ved statistisk testing av nullhypotesen er at hvis den blir akseptert, kan den se ut til å være sann. I stedet vil det være mer riktig å si at nullhypotesen ikke er forkastet fordi det ikke er nok statistisk bevis til å forkaste den.
Dette øyeblikket forvirrer ofte nybegynnere. I et slikt tilfelle er det viktig å minne deg selv på at resultatet er sannsynlighet og at selv å akseptere nullhypotesen har en liten sjanse for feil.
Sann eller usann nullhypotese
Tolkning av verdien av p betyr ikke at nullhypotesen er sann eller usann. Dette betyr at det er tatt et valg om å forkaste eller ikke forkaste nullhypotesen på et visst nivå av statistisk signifikans basert på empirien og den valgte statistiske testen. Derfor kan p-verdien betraktes som sannsynligheten for dataene gitt under en forhåndsbestemt antakelse innebygd i de statistiske testene. P-verdien er et mål på hvor sannsynlig datautvalget vil bli observert hvis nullhypotesen er sann.
Tolkning av kritiske verdier
Noen tester returnerer ikke s. I stedet kan de returnere en liste over kritiske verdier. Resultatene av en slik studie tolkes på lignende måte. I stedet for å sammenligne en enkelt p-verdi med et forhåndsbestemt nivå av signifikans, sammenlignes teststatistikken med en kritisk verdi. Hvis det viser seg å være mindre, betyr det at det ikke var mulig å forkaste nullhypotesen. Hvis den er større enn eller lik, bør nullhypotesen forkastes. Betydningen av den statistiske hypotesetestingsalgoritmen og tolkningen av resultatet er lik p-verdien. Signifikansnivået som er valgt er en sannsynlighetsbeslutning om å avvise eller ikke avvise basistestantagelsen gitt dataene.
Feil i statistiske tester
Tolkningen av en statistisk hypotesetest er sannsynlighet. Oppgaven med å teste statistiske hypoteser er ikke å finne en sann eller usann påstand. Testbevis kan være feil. For eksempel, hvis alfa var 5 %, betyr dette at for det meste 1 av 20nullhypotesen vil bli forkastet ved en feiltakelse. Eller det vil det ikke på grunn av den statistiske støyen i datautvalget. Gitt dette punktet kan en liten p-verdi for å forkaste nullhypotesen bety at den er usann eller at det er gjort en feil. Hvis denne typen feil gjøres, kalles resultatet en falsk positiv. Og en slik feil er en feil av den første typen når man tester statistiske hypoteser. På den annen side, hvis p-verdien er stor nok til å bety avvisning av nullhypotesen, kan det bety at den er sann. Eller er ikke riktig, og det oppstod en usannsynlig hendelse på grunn av hvilken feilen ble gjort. Denne typen feil kalles en falsk negativ.
Sannsynlighet for feil
Når man tester statistiske hypoteser, er det fortsatt en sjanse for å gjøre noen av denne typen feil. Falske data eller falske konklusjoner er ganske sannsynlig. Ideelt sett bør et signifikansnivå velges som minimerer sannsynligheten for en av disse feilene. For eksempel kan statistisk testing av nullhypoteser ha et svært lavt signifikansnivå. Selv om signifikansnivåer som 0,05 og 0,01 er vanlige innen mange vitenskapsfelt, er det mest brukte signifikansnivået 310^-7, eller 0,0000003. Det blir ofte referert til som "5-sigma". Dette betyr at konklusjonen var tilfeldig med en sannsynlighet på 1 av 3,5 millioner uavhengige repetisjoner av forsøkene. Eksempler på testing av statistiske hypoteser har ofte slike feil. Dette er også grunnen til at det er viktig med uavhengige resultater.bekreftelse.
Eksempler på bruk av statistisk bekreftelse
Det er flere vanlige eksempler på hypotesetesting i praksis. En av de mest populære er kjent som "Tesmaking". Dr. Muriel Bristol, en kollega til biometrigrunnlegger Robert Fisher, hevdet å være i stand til å si sikkert om det først ble tilsatt en kopp te eller melk. Fisher tilbød seg å gi henne åtte kopper (fire av hver variant) tilfeldig. Teststatistikken var enkel: å telle antall suksesser med å velge en kopp. Den kritiske regionen var den eneste suksessen av 4, muligens basert på det vanlige sannsynlighetskriteriet (< 5 %; 1 av 70 ≈ 1,4 %). Fisher hevdet at en alternativ hypotese ikke er nødvendig. Damen identifiserte hver kopp korrekt, noe som ble ansett som et statistisk signifikant resultat. Denne erfaringen førte til Fishers bok Statistical Methods for Researchers.
Eksempel på saksøkte
Den statistiske rettssaksprosedyren kan sammenlignes med en straffedomstol der tilt alte antas å være uskyldig inntil det motsatte er bevist. Aktor forsøker å bevise tilt altes skyld. Først når det er tilstrekkelig bevis for en siktelse kan tilt alte kjennes skyldig. I begynnelsen av prosedyren er det to hypoteser: «Den tilt alte er ikke skyldig» og «Den tilt alte er skyldig». Hypotesen om uskyld kan bare forkastes når feil er svært usannsynlig fordi man ikke ønsker å dømme en uskyldig tilt alt. En slik feil kalles en type I-feil, og dens forekomstsjelden kontrollert. Som en konsekvens av denne asymmetriske oppførselen er type II feil, dvs. frifinnelse av gjerningsmannen, mer vanlig.
Statistikk er nyttig når man analyserer store datamengder. Dette gjelder også testing av hypoteser, som kan rettferdiggjøre konklusjonene selv om det ikke eksisterer noen vitenskapelig teori. I tesmakingseksemplet var det "åpenbart" at det ikke var noen forskjell mellom å helle melk i te eller å helle te i melk.
Ekte praktisk anvendelse av hypotesetesting inkluderer:
- tester om menn har flere mareritt enn kvinner;
- dokumentattribusjon;
- Vurdere fullmånens innflytelse på atferd;
- bestemme området der en flaggermus kan oppdage et insekt ved hjelp av et ekko;
- velge den beste måten å slutte å røyke på;
- Sjekker om støtfangerklistremerker gjenspeiler oppførselen til bileieren.
Statistisk hypotesetesting spiller en viktig rolle i statistikk generelt og i statistisk slutning. Verditesting brukes som en erstatning for den tradisjonelle sammenligningen av predikert verdi og eksperimentelt resultat i kjernen av den vitenskapelige metoden. Når en teori bare er i stand til å forutsi tegnet på et forhold, kan rettet hypotesetester konfigureres på en slik måte at bare et statistisk signifikant resultat støtter teorien. Denne formen for evalueringsteori er den mest rigidekritikk av bruken av hypotesetesting.