Forutsetningene nedfelt i statistisk modellering beskriver et sett med sannsynlighetsfordelinger, hvorav noen antas å tilnærme fordelingen tilstrekkelig. Et spesifikt sett med data velges fra definisjonen. Sannsynlighetsfordelingene som ligger i statistisk modellering er det som skiller statistiske modeller fra andre, ikke-statistiske, matematiske modeller.
Forbindelse med matematikk
Denne vitenskapelige metoden er først og fremst forankret i matematikk. Statistisk modellering av systemer er vanligvis gitt av matematiske ligninger som relaterer en eller flere tilfeldige variabler og muligens andre ikke-tilfeldige variabler. Dermed er en statistisk modell en "formell representasjon av en teori" (Hermann Ader, siterer Kenneth Bollen).
Alle statistiske hypotesetester og alle statistiske estimater er utledet fra statistiske modeller. Mer generelt er statistiske modeller en del av grunnlaget for statistisk slutning.
Statistiske metodermodellering
Uformelt kan en statistisk modell betraktes som en statistisk forutsetning (eller sett med statistiske forutsetninger) med en bestemt egenskap: denne forutsetningen lar oss beregne sannsynligheten for enhver hendelse. Som et eksempel, tenk på et par vanlige sekssidige terninger. Vi vil studere to forskjellige statistiske antakelser om beinet.
Den første statistiske forutsetningen utgjør den statistiske modellen, fordi med bare én forutsetning kan vi beregne sannsynligheten for enhver hendelse. Den alternative statistiske forutsetningen utgjør ikke en statistisk modell, fordi vi med bare én forutsetning ikke kan beregne sannsynligheten for hver hendelse.
I eksemplet ovenfor med den første antakelsen er det enkelt å beregne sannsynligheten for en hendelse. I noen andre eksempler kan imidlertid beregningen være kompleks eller til og med upraktisk (det kan for eksempel kreve millioner av år med beregning). For antagelsen som utgjør en statistisk modell, er denne vanskeligheten akseptabel: å utføre beregningen trenger ikke å være praktisk gjennomførbart, bare teoretisk mulig.
Eksempler på modeller
Anta at vi har en befolkning av skoleelever med jevnt fordelte barn. Høyden til et barn vil være stokastisk relatert til alder: for eksempel, når vi vet at et barn er 7 år, påvirker dette sannsynligheten for at barnet blir 5 fot høyt (ca. 152 cm). Vi kan formalisere dette forholdet i en lineær regresjonsmodell, for eksempel: vekst=b0 + b1agei+ εi, hvor b0 er skjæringspunktet, b1 er parameteren som alderen multipliseres med når man får vekstprognosen, εi er feilleddet. Dette innebærer at høyde er spådd av alder med noen feil.
En gyldig modell må samsvare med alle datapunkter. Så en rett linje (heighti=b0 + b1agei) kan ikke være en ligning for en datamodell - med mindre den passer alle datapunkter nøyaktig, dvs. alle datapunkter ligger perfekt på linjen. Feilleddet εi må inkluderes i ligningen for at modellen skal passe til alle datapunkter.
For å gjøre en statistisk slutning må vi først anta noen sannsynlighetsfordelinger for εi. For eksempel kan vi anta at fordelingene til εi er gaussiske, med null gjennomsnitt. I dette tilfellet vil modellen ha 3 parametere: b0, b1 og variansen til den gaussiske fordelingen.
Generell beskrivelse
En statistisk modell er en spesiell klasse av matematiske modeller. Det som skiller en statistisk modell fra andre matematiske modeller er at den er ikke-deterministisk. Den brukes til å modellere statistiske data. Således, i en statistisk modell definert med matematiske ligninger, har noen variabler ikke spesifikke verdier, men har i stedet sannsynlighetsfordelinger; det vil si at noen variabler er stokastiske. I eksemplet ovenfor er ε en stokastisk variabel; uten denne variabelen var modellenville vært deterministisk.
Statistiske modeller brukes ofte i statistisk analyse og modellering, selv om den fysiske prosessen som modelleres er deterministisk. For eksempel er myntkasting i prinsippet en deterministisk prosess; men det er vanligvis modellert som stokastisk (via en Bernoulli-prosess).
Parametriske modeller
Parametriske modeller er de mest brukte statistiske modellene. Når det gjelder semi-parametriske og ikke-parametriske modeller, sa Sir David Cox: "De inkluderer generelt færre antakelser om strukturen og formen på distribusjonen, men inneholder vanligvis sterke uavhengighetsantakelser." Som alle andre nevnte modeller, brukes de også ofte i den statistiske metoden for matematisk modellering.
Flernivåmodeller
Flernivåmodeller (også kjent som hierarkiske lineære modeller, nestede datamodeller, blandede modeller, tilfeldige koeffisienter, tilfeldige effektmodeller, tilfeldige parametermodeller eller partisjonerte modeller) er statistiske parametermodeller som varierer på mer enn ett nivå. Et eksempel er en elevprestasjonsmodell som inneholder beregninger for individuelle elever samt beregninger for klasserom der elevene er gruppert. Disse modellene kan betraktes som generaliseringer av lineære modeller (spesielt lineær regresjon), selv om de også kan utvides til ikke-lineære modeller. Disse modellene har blittmye mer populært når tilstrekkelig datakraft og programvare ble tilgjengelig.
Flernivåmodeller er spesielt egnet for forskningsprosjekter der data for deltakere er organisert på mer enn ett nivå (dvs. nestede data). Analyseenheter er vanligvis individer (på et lavere nivå) som er nestet innenfor kontekst/aggregerte enheter (på et høyere nivå). Mens det laveste datanivået i flernivåmodeller typisk er individuelt, kan gjentatte målinger av individer også vurderes. Dermed gir flernivåmodeller en alternativ type analyse for univariat eller multivariat gjentatt målanalyse. Individuelle forskjeller i vekstkurver kan vurderes. I tillegg kan flernivåmodeller brukes som et alternativ til ANCOVA, hvor avhengige variabelskårer justeres for kovariater (f.eks. individuelle forskjeller) før testing for behandlingsforskjeller. Flernivåmodeller er i stand til å analysere disse eksperimentene uten antagelsen om ensartede regresjonshellinger som kreves av ANCOVA.
Flernivåmodeller kan brukes for data med mange nivåer, selv om to-nivåmodeller er de vanligste og resten av denne artikkelen fokuserer på disse. Den avhengige variabelen bør undersøkes på det laveste analysenivået.
modellvalg
modellvalger oppgaven med å velge fra et sett med kandidatmodeller gitt dataene, utført innenfor rammen av statistisk modellering. I de enkleste tilfellene vurderes et allerede eksisterende datasett. Oppgaven kan imidlertid også innebære å designe eksperimenter slik at dataene som samles inn er godt egnet til modellvalgoppgaven. Gitt kandidatmodeller med lignende prediktiv eller forklarende kraft, er den enkleste modellen sannsynligvis det beste valget (Occams barberhøvel).
Konishi & Kitagawa sier: "De fleste statistiske slutningsproblemer kan betraktes som problemer relatert til statistisk modellering." På samme måte sa Cox: "Hvordan oversettelsen av emnet til den statistiske modellen gjøres er ofte den viktigste delen av analysen."
Modellvalg kan også referere til problemet med å velge noen få representative modeller fra et stort sett med beregningsmodeller for beslutnings- eller optimaliseringsformål under usikkerhet.
grafiske mønstre
Grafisk modell, eller probabilistisk grafisk modell, (PGM) eller strukturert probabilistisk modell, er en sannsynlighetsmodell der grafen uttrykker strukturen til et betinget forhold mellom tilfeldige variabler. De brukes ofte i sannsynlighetsteori, statistikk (spesielt Bayesiansk statistikk) og maskinlæring.
Økonometriske modeller
Økonometriske modeller er statistiske modeller som brukes iøkonometri. En økonometrisk modell definerer de statistiske sammenhengene som antas å eksistere mellom ulike økonomiske størrelser relatert til et bestemt økonomisk fenomen. En økonometrisk modell kan utledes fra en deterministisk økonomisk modell som tar hensyn til usikkerhet, eller fra en økonomisk modell som i seg selv er stokastisk. Det er imidlertid også mulig å bruke økonometriske modeller som ikke er knyttet til noen spesiell økonomisk teori.