Statistisk informasjon: innsamling, behandling, analyse

2026 Forfatter: Angel Austin | [email protected]. Sist endret: 2025-01-23 12:27:34

Gjennom statistikkens historie har det blitt gjort forskjellige forsøk på å lage en taksonomi over målenivåer. Psykofysiker Stanley Smith Stevens definerte nominelle, ordinale, intervaller og proporsjonale skalaer.

Nominelle målinger har ingen signifikant rekkefølge av rangeringer blant verdiene og tillater enhver en-til-en-konvertering.

Vanlige dimensjoner har unøyaktige forskjeller mellom påfølgende verdier, men har en spesifikk rekkefølge av disse verdiene og tillater enhver rekkefølgebevarende transformasjon.

Intervallmålinger har meningsfulle avstander mellom punktene, men nullverdien er vilkårlig (som i tilfellet med lengde- og temperaturmålinger i Celsius eller Fahrenheit) og tillater enhver lineær transformasjon.

Forholdsdimensjoner har både en meningsfull nullverdi og avstander mellom ulike dimensjoner, og tillater enhver skaleringstransformasjon.

Variabler og klassifisering av informasjon

Fordi variablenesom bare tilsvarer nominelle eller ordinale mål, kan ikke med rimelighet måles numerisk, og er noen ganger gruppert som kategoriske variabler. Forholds- og intervallmålingene er gruppert som kvantitative variabler, som kan være enten diskrete eller kontinuerlige på grunn av deres numeriske natur. Slike distinksjoner er ofte løst relatert til datatype i informatikk, siden dikotome kategoriske variabler kan representeres av boolske verdier, polytome kategoriske variabler med vilkårlige heltall i en integrert datatype, og kontinuerlige variabler med reelle komponenter som involverer flytende kommaberegning. Men visningen av statistiske informasjonsdatatyper avhenger av hvilken klassifisering som brukes.

Andre klassifiseringer

Andre klassifiseringer av statistiske data (informasjon) er også opprettet. For eksempel skilte Mosteller og Tukey mellom karakterer, rangeringer, oppt alte andeler, antall, beløp og saldoer. Nelder beskrev på en gang kontinuerlige tellinger, kontinuerlige forholdstall, korrelasjon av tellinger og kategoriske måter å kommunisere data på. Alle disse klassifiseringsmetodene brukes i innsamlingen av statistisk informasjon.

Problems

Spørsmålet om det er hensiktsmessig å bruke ulike typer statistiske metoder på data innhentet gjennom ulike måle- (innsamlings)prosedyrer kompliseres av spørsmål knyttet til konvertering av variabler og den nøyaktige tolkningen av spørsmålforskning. Forholdet mellom data og det de beskriver reflekterer ganske enkelt det faktum at visse typer statistiske utsagn kan ha sannhetsverdier som ikke er invariante under visse transformasjoner. Hvorvidt transformasjonen er verdt å vurdere avhenger av spørsmålet du prøver å svare på.

Hva er en datatype

Datatypen er en grunnleggende komponent av det semantiske innholdet til en variabel og kontrollerer hvilke typer sannsynlighetsfordelinger som logisk kan brukes til å beskrive variabelen, operasjonene som er tillatt på den, typen regresjonsanalyse som brukes til å forutsi den, etc. Konseptet med en datatype er likt på begrepet målenivå, men mer spesifikt - for eksempel datatelling krever en annen fordeling (Poisson eller binomial) enn for ikke-negative reelle verdier, men begge faller inn under samme målenivå (koeffisientskala).

vekt

Det er gjort forskjellige forsøk på å lage en taksonomi av målenivåer for behandling av statistisk informasjon. Psykofysiker Stanley Smith Stevens definerte nominelle, ordinære, intervaller og proporsjonale skalaer. Nominelle målinger har ikke en signifikant rekkefølge blant verdiene og tillater enhver en-til-en-konvertering. Vanlige målinger har upresise forskjeller mellom suksessive verdier, men varierer i den signifikante rekkefølgen av disse verdiene, og tillaterenhver ordensbevarende transformasjon. Intervallmålinger har meningsfulle avstander mellom målinger, men nullverdien er vilkårlig (som i tilfellet med lengde- og temperaturmålinger i Celsius eller Fahrenheit) og tillater enhver lineær transformasjon. Forholdsdimensjoner har både en meningsfull nullverdi og avstander mellom forskjellige definerte dimensjoner, og tillater enhver skaleringstransformasjon.

Data som ikke kan beskrives med et enkelt tall, er ofte inkludert i tilfeldige vektorer av reelle tilfeldige variabler, selv om det er en økende trend å behandle dem selv. Slike eksempler vil bli diskutert nedenfor.

Tilfeldige vektorer

Individuelle elementer kan være korrelerte eller ikke. Eksempler på fordelinger som brukes for å beskrive korrelerte tilfeldige vektorer er den multivariate normalfordelingen og den multivariate t-fordelingen. Generelt kan det være vilkårlige korrelasjoner mellom alle elementer, men dette blir ofte uhåndterlig over en viss størrelse, og krever ytterligere begrensninger på de korrelerte komponentene.

Tilfeldige matriser

Tilfeldige matriser kan ordnes lineært og behandles som tilfeldige vektorer, men dette er kanskje ikke en effektiv måte å representere korrelasjoner mellom ulike elementer. Noen sannsynlighetsfordelinger er spesielt designet for tilfeldige matriser, for eksempel normalmatrisendistribusjon og Wishart-distribusjon.

Random Sequences

Noen ganger betraktes de som de samme som tilfeldige vektorer, men i andre tilfeller brukes begrepet spesifikt for tilfeller der hver tilfeldig variabel kun korrelerer med nærliggende variabler (som i en Markov-modell). Dette er et spesi altilfelle av det Bayesianske nettverket og brukes til svært lange sekvenser, som genkjeder eller lange tekstdokumenter. En rekke modeller er spesialdesignet for slike sekvenser, for eksempel skjulte Markov-sekvenser.

Tilfeldige prosesser

De ligner på tilfeldige sekvenser, men bare når lengden på sekvensen er ubestemt eller uendelig, og elementene i sekvensen behandles en etter en. Dette brukes ofte for data som kan beskrives som tidsserier. Dette gjelder for eksempel når det gjelder aksjekursen neste dag.

Konklusjon

Analysen av statistisk informasjon avhenger helt av kvaliteten på innsamlingen. Sistnevnte er på sin side sterkt knyttet til mulighetene for klassifiseringen. Selvfølgelig er det mange typer klassifisering av statistisk informasjon, som leseren kan se selv når han leser denne artikkelen. Likevel vil tilstedeværelsen av effektive verktøy og en god beherskelse av matematikk, samt kunnskap innen sosiologi, gjøre jobben sin, slik at du kan gjennomføre enhver undersøkelse eller studie uten vesentlige feilrettelser. Kilder til statistisk informasjon i skjemaetmennesker, organisasjoner og andre fag innen sosiologi er heldigvis representert i stor overflod. Og ingen vanskeligheter kan stå i veien for en ekte oppdagelsesreisende.