En statistisk modell er en matematisk projeksjon som legemliggjør et sett med forskjellige antakelser om generering av noen prøvedata. Begrepet presenteres ofte i en mye idealisert form.
Forutsetningene uttrykt i den statistiske modellen viser et sett med sannsynlighetsfordelinger. Mange av disse er ment å korrekt tilnærme distribusjonen som et bestemt sett med informasjon hentes fra. Sannsynlighetsfordelingene som ligger i statistiske modeller er det som skiller projeksjonen fra andre matematiske modifikasjoner.
Generell projeksjon
Matematisk modell er en beskrivelse av systemet ved hjelp av visse begreper og språk. De gjelder for naturvitenskapene (som fysikk, biologi, geovitenskap, kjemi) og ingeniørdisipliner (som informatikk, elektroteknikk), samt samfunnsvitenskapene (som økonomi, psykologi, sosiologi, statsvitenskap).
Modellen kan bidra til å forklare systemet ogstuder påvirkningen av ulike komponenter, og foreta spådommer om atferd.
Matematiske modeller kan ha mange former, inkludert dynamiske systemer, statistiske projeksjoner, differensialligninger eller spilleteoretiske parametere. Disse og andre typer kan overlappe hverandre, og denne modellen inkluderer mange abstrakte strukturer. Generelt kan matematiske projeksjoner også inkludere logiske komponenter. I mange tilfeller er kvaliteten på et vitenskapelig felt avhengig av hvor godt de teoretisk utviklede matematiske modellene stemmer overens med resultatene av gjentatte eksperimenter. Mangel på samsvar mellom teoretiske prosesser og eksperimentelle målinger fører ofte til viktige fremskritt ettersom bedre teorier utvikles.
I realfag inneholder den tradisjonelle matematiske modellen et stort antall av følgende elementer:
- Kontrollligninger.
- Ytterligere undermodeller.
- Definer ligninger.
- Konstituerende ligninger.
- Forutsetninger og begrensninger.
- Start- og grensebetingelser.
- Klassiske begrensninger og kinematiske ligninger.
Formel
En statistisk modell er som regel satt av matematiske ligninger som kombinerer en eller flere tilfeldige variabler og muligens andre naturlig forekommende variabler. På samme måte betraktes projeksjon som "det formelle konseptet til et konsept."
Alle statistiske hypotesetester og statistiske evalueringer er opptjent fra matematiske modeller.
Introduksjon
Uformelt kan en statistisk modell sees på som en antakelse (eller sett med antakelser) med en spesifikk egenskap: den lar en beregne sannsynligheten for enhver hendelse. Som et eksempel, tenk på et par vanlige sekssidige terninger. To forskjellige statistiske antakelser om beinet må utforskes.
Den første antagelsen er:
For hver av terningene er sannsynligheten for å få et av tallene (1, 2, 3, 4, 5 og 6): 1/6.
Fra denne antagelsen kan vi beregne sannsynligheten for begge terningene: 1:1/6×1/6=1/36.
Mer generelt kan du beregne sannsynligheten for enhver hendelse. Det skal imidlertid forstås at det er umulig å beregne sannsynligheten for noen annen ikke-triviell hendelse.
Bare den første oppfatningen samler inn en statistisk matematisk modell: på grunn av det faktum at med bare én antagelse er det mulig å bestemme sannsynligheten for hver handling.
I eksemplet ovenfor med første tillatelse, er det enkelt å fastslå muligheten for en hendelse. Med noen andre eksempler kan regnestykket være vanskelig eller til og med urealistisk (det kan for eksempel kreve mange år med beregninger). For en person som designer en statistisk analysemodell anses en slik kompleksitet som uakseptabel: implementering av beregninger bør ikke være praktisk umulig og teoretisk umulig.
Formell definisjon
I matematiske termer blir den statistiske modellen av et system vanligvis betraktet som et par (S, P), der S ersettet med mulige observasjoner, dvs. utvalgsrommet, og P er settet med sannsynlighetsfordelinger på S.
Intuisjonen til denne definisjonen er som følger. Det antas at det er en "sann" sannsynlighetsfordeling forårsaket av prosessen som genererer visse data.
Set
Det er han som bestemmer parametrene til modellen. Parametrisering krever generelt forskjellige verdier for å resultere i forskjellige distribusjoner, dvs.
må holde (det må med andre ord være injektiv). En parametrisering som oppfyller kravet sies å være identifiserbar.
Eksempel
Anta at det er et visst antall elever som er i ulik alder. Høyden på barnet vil være stokastisk relatert til fødselsåret: for eksempel når en skolegutt er 7 år, påvirker dette sannsynligheten for vekst, bare slik at personen blir høyere enn 3 centimeter.
Du kan formalisere denne tilnærmingen til en rettlinjet regresjonsmodell, for eksempel som følger: høyde i=b 0 + b 1agei + εi, hvor b 0 er skjæringspunktet, b 1 er parameteren som alderen er multiplisert når man oppnår høydeovervåking. Dette er et feilbegrep. Det vil si at den forutsetter at høyden er spådd av alder med en viss feil.
Et gyldig skjema må samsvare med alle informasjonspunkter. Dermed er den rettlinjede retningen (nivå i=b 0 + b 1agei) ikke i stand til å være en ligning for en datamodell - hvis den ikke gir entydig svar på absolutt alle punkter. Dvsuten unntak ligger all informasjon feilfritt på linjen. Feilmarginen εi må legges inn i ligningen slik at skjemaet samsvarer med absolutt alle opplysninger.
For å gjøre en statistisk slutning må vi først anta noen sannsynlighetsfordelinger for ε i. For eksempel kan man anta at fordelingene til ε i har en gaussisk form med null gjennomsnitt. I dette tilfellet vil modellen ha 3 parametere: b 0, b 1 og variansen til Gauss-fordelingen.
Du kan formelt spesifisere modellen som (S, P).
I dette eksemplet er modellen definert ved å spesifisere S, og derfor kan noen antakelser gjøres om P. Det er to alternativer:
Denne veksten kan tilnærmes med en lineær funksjon av alder;
At feilene i tilnærmingen er fordelt som inne i en gaussisk.
Generelle bemerkninger
Statistiske parametere for modeller er en spesiell klasse av matematisk projeksjon. Hva gjør en art forskjellig fra en annen? Så det er at den statistiske modellen er ikke-deterministisk. I den, i motsetning til matematiske ligninger, har visse variabler ikke bestemte verdier, men har i stedet en fordeling av muligheter. Det vil si at individuelle variabler anses som stokastiske. I eksemplet ovenfor er ε en stokastisk variabel. Uten den ville projeksjonen vært deterministisk.
Å bygge en statistisk modell brukes ofte, selv om materialprosessen anses å være deterministisk. For eksempel er myntkasting i prinsippet en forhåndsbestemmende handling. Imidlertid er dette fortsatt i de fleste tilfeller modellert som stokastisk (gjennom en Bernoulli-prosess).
Ifølge Konishi og Kitagawa er det tre mål for en statistisk modell:
- Predictions.
- Informasjonsutvinning.
- Beskrivelse av stokastiske strukturer.
Projeksjonsstørrelse
Anta at det er en statistisk prediksjonsmodell, Modellen kalles parametrisk hvis O har en endelig dimensjon. I løsningen må du skrive at
der k er et positivt heltall (R står for alle reelle tall). Her kalles k dimensjonen til modellen.
Som et eksempel kan vi anta at alle data kommer fra en univariat gaussisk distribusjon:
I dette eksemplet er dimensjonen til k 2.
Og som et annet eksempel kan dataene antas å bestå av (x, y) punkter, som antas å være fordelt i en rett linje med Gaussiske residualer (med null gjennomsnitt). Da er dimensjonen til den statistiske økonomiske modellen lik 3: skjæringspunktet mellom linjen, dens helning og variansen av fordelingen av residualer. Det bør bemerkes at i geometri har en rett linje en dimensjon på 1.
Selv om verdien ovenfor teknisk sett er den eneste parameteren som har dimensjon k, anses den noen ganger for å inneholde k distinkte verdier. For eksempel, med en endimensjonal gaussisk fordeling, er O den eneste parameteren med størrelsen 2, men anses noen ganger for å inneholde toindividuell parameter – gjennomsnittsverdi og standardavvik.
En statistisk prosessmodell er ikke-parametrisk hvis settet med O-verdier er uendelig dimensjon alt. Den er også semi-parametrisk hvis den har både endelig-dimensjonale og uendelig-dimensjonale parametere. Formelt, hvis k er en dimensjon av O og n er antall prøver, har semi-parametriske og ikke-parametriske modeller
da er modellen semi-parametrisk. Ellers er projeksjonen ikke-parametrisk.
Parametriske modeller er den mest brukte statistikken. Når det gjelder semi-parametriske og ikke-parametriske projeksjoner, utt alte Sir David Cox:
"De involverer vanligvis færrest hypoteser om tekstur og distribusjonsform, men de inkluderer kraftige teorier om selvforsyning."
Nestede modeller
Ikke forveksle dem med projeksjoner på flere nivåer.
To statistiske modeller er nestet hvis den første kan konverteres til den andre ved å legge begrensninger på parametrene til den første. For eksempel har settet med alle gaussiske distribusjoner et nestet sett med nullmiddelfordelinger:
Det vil si at du må begrense gjennomsnittet i settet av alle gaussiske fordelinger for å få fordelinger med null gjennomsnitt. Som et andre eksempel har den kvadratiske modellen y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) en innebygd lineær modell y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - dvs. parameter b2 er lik 0.
I begge disse eksemplene har den første modellen høyere dimensjonalitet enn den andre modellen. Dette er ofte, men ikke alltid tilfelle. Et annet eksempel er settet med gaussiske fordelinger med positivt gjennomsnitt, som har dimensjon 2.
Sammenligning av modeller
Det antas at det er en "sann" sannsynlighetsfordeling som ligger til grunn for de observerte dataene indusert av prosessen som genererte dem.
Og også modeller kan sammenlignes med hverandre, ved å bruke utforskende analyser eller bekreftende. I en eksplorativ analyse formuleres ulike modeller og det gjøres en vurdering av hvor godt hver av dem beskriver dataene. I en bekreftende analyse sammenlignes den tidligere formulerte hypotesen med den opprinnelige. Vanlige kriterier for dette inkluderer P 2, Bayesiansk faktor og relativ sannsynlighet.
Konishi og Kitagawas tanke
“De fleste problemer i en statistisk matematisk modell kan tenkes på som prediktive spørsmål. De er vanligvis formulert som sammenligninger av flere faktorer.»
Videre sa Sir David Cox: "Som en oversettelse fra emnet, er problemet i den statistiske modellen ofte den viktigste delen av analysen."