Matematisk statistikk er en metodikk som lar deg ta informerte beslutninger i møte med usikre forhold. Studiet av metoder for å samle inn og systematisere data, bearbeide de endelige resultatene av eksperimenter og eksperimenter med massetilfeldighet, og oppdage eventuelle mønstre er det denne grenen av matematikk gjør. Vurder de grunnleggende konseptene for matematisk statistikk.
forskjell med sannsynlighetsteori
Metoder for matematisk statistikk skjærer tett sammen med sannsynlighetsteori. Begge grenene av matematikken omhandler studiet av en rekke tilfeldige fenomener. De to disiplinene er forbundet med grensesetninger. Det er imidlertid stor forskjell mellom disse vitenskapene. Hvis sannsynlighetsteorien bestemmer egenskapene til en prosess i den virkelige verden på grunnlag av en matematisk modell, så gjør matematisk statistikk det motsatte - den setter egenskapene til modellen tilbasert på observert informasjon.
Trinn
Anvendelse av matematisk statistikk kan bare utføres i forhold til tilfeldige hendelser eller prosesser, eller rettere sagt, til data hentet fra observasjon av dem. Og dette skjer i flere stadier. For det første gjennomgår dataene fra eksperimenter og eksperimenter en viss prosessering. De er bestilt for klarhet og enkel analyse. Deretter gjøres et nøyaktig eller omtrentlig estimat av de nødvendige parameterne for den observerte tilfeldige prosessen. De kan være:
- vurdering av sannsynligheten for en hendelse (sannsynligheten er i utgangspunktet ukjent);
- studerer oppførselen til en ubestemt distribusjonsfunksjon;
- forventningsanslag;
- varianseestimering
- etc.
Det tredje trinnet er verifisering av eventuelle hypoteser satt før analysen, det vil si å få svar på spørsmålet om hvordan resultatene av eksperimentene samsvarer med de teoretiske beregningene. Faktisk er dette hovedstadiet av matematisk statistikk. Et eksempel kan være å vurdere om oppførselen til en observert tilfeldig prosess er innenfor normalfordelingen.
Befolkning
De grunnleggende konseptene for matematisk statistikk inkluderer generelle og utvalgspopulasjoner. Denne disiplinen er opptatt av studiet av et sett med visse objekter med hensyn til noen eiendom. Et eksempel er arbeidet til en drosjesjåfør. Vurder disse tilfeldige variablene:
- last eller antall kunder: per dag, før lunsj, etter lunsj, …;
- gjennomsnittlig reisetid;
- antall innkommende søknader eller deres vedlegg til bydeler og mye mer.
Det er også verdt å merke seg at det er mulig å studere et sett med lignende tilfeldige prosesser, som også vil være en tilfeldig variabel som kan observeres.
Så, i metodene for matematisk statistikk, kalles hele settet med objekter som studeres eller resultatene av ulike observasjoner som utføres under de samme forholdene på et gitt objekt, den generelle populasjonen. Med andre ord, matematisk mer strengt, er det en tilfeldig variabel som er definert i rommet av elementære hendelser, med en klasse av delmengder utpekt i den, hvis elementer har en kjent sannsynlighet.
Eksempelpopulasjon
Det er tilfeller der det er umulig eller upraktisk av en eller annen grunn (kostnad, tid) å gjennomføre en kontinuerlig studie for å studere hvert objekt. Å åpne hver krukke med forseglet syltetøy for å sjekke kvaliteten er for eksempel en tvilsom avgjørelse, og å prøve å anslå banen til hvert luftmolekyl i en kubikkmeter er umulig. I slike tilfeller brukes metoden for selektiv observasjon: et visst antall objekter velges (vanligvis tilfeldig) fra den generelle befolkningen, og de blir gjenstand for deres analyse.
Disse konseptene kan virke kompliserte i begynnelsen. Derfor, for å forstå emnet fullt ut, må du studere læreboken av V. E. Gmurman "Sannsynlighetsteori og matematisk statistikk". Således er et prøvetakingssett eller prøve en serie med objekter valgt tilfeldig fra det generelle settet. I strenge matematiske termer er dette en sekvens av uavhengige, jevnt fordelte tilfeldige variabler, for hver av disse er fordelingen sammenfallende med den som er angitt for den generelle tilfeldige variabelen.
Grunnleggende konsepter
La oss kort vurdere en rekke andre grunnleggende begreper innen matematisk statistikk. Antall objekter i den generelle populasjonen eller utvalget kalles volum. Prøveverdiene som oppnås under eksperimentet kalles prøverealiseringen. For at et estimat av den generelle befolkningen basert på et utvalg skal være pålitelig, er det viktig med et såk alt representativt eller representativt utvalg. Dette betyr at utvalget fullt ut skal representere populasjonen. Dette kan bare oppnås hvis alle elementer i populasjonen har like stor sannsynlighet for å være med i utvalget.
Eksempler skiller mellom retur og ikke-retur. I det første tilfellet, i innholdet i prøven, returneres det gjentatte elementet til det generelle settet, i det andre tilfellet er det ikke det. Vanligvis brukes i praksis prøvetaking uten erstatninger. Det bør også bemerkes at størrelsen på den generelle befolkningen alltid overstiger størrelsen på utvalget betydelig. Eksisteremange alternativer for prøvetakingsprosessen:
- simple - elementer velges tilfeldig én om gangen;
- typet - den generelle befolkningen er delt inn i typer, og det tas et valg fra hver; et eksempel er en undersøkelse av innbyggere: menn og kvinner hver for seg;
- mekanisk - velg for eksempel hvert 10. element;
- seriell – valget gjøres i serier med elementer.
Statistisk distribusjon
I følge Gmurman er sannsynlighetsteori og matematisk statistikk ekstremt viktige disipliner i den vitenskapelige verden, spesielt i dens praktiske del. Vurder den statistiske fordelingen av utvalget.
Anta at vi har en gruppe elever som ble testet i matematikk. Som et resultat har vi et sett med estimater: 5, 3, 1, 4, 3, 4, 2, 5, 4, 4, 5 – dette er vårt primære statistiske materiale.
Først og fremst må vi sortere det, eller utføre en rangeringsoperasjon: 1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5 – og dermed få en variasjonsserie. Antallet repetisjoner av hver av vurderingene kalles vurderingsfrekvensen, og deres forhold til utvalgsstørrelsen kalles den relative frekvensen. La oss lage en tabell over den statistiske fordelingen av utvalget, eller bare en statistisk serie:
ai | 1 | 2 | 3 | 4 | 5 |
pi | 1 | 1 | 2 | 4 | 3 |
eller
ai | 1 | 2 | 3 | 4 | 5 |
pi | 1/11 | 1/11 | 2/11 | 4/11 | 3/11 |
La oss ha en tilfeldig variabel som vi skal utføre en serie eksperimenter på og se hvilken verdi denne variabelen har. Anta at hun tok verdien a1 - m1 ganger; a2 - m2 ganger osv. Størrelsen på denne prøven vil være m1 + … + mk=m. Settet ai, der i varierer fra 1 til k, er en statistisk serie.
Intervalldistribusjon
I boken til VE Gmurman "Sannsynlighetsteori og matematisk statistikk" presenteres også en intervallstatistisk serie. Sammenstillingen er mulig når verdien av funksjonen som studeres er kontinuerlig i et visst intervall, og antallet verdier er stort. Tenk på en gruppe elever, eller rettere sagt, høyden deres: 163, 180, 185, 172, 161, 171, 189, 157, 165, 174, 180, 181, 175, 182, 167, 159, 171, 159, 173 179, 160, 180, 166, 178, 156, 180, 189, 173, 174, 175 - 30 elever tot alt. Åpenbart er høyden til en person en kontinuerlig verdi. Vi må definere intervalltrinnet. For dette brukes Sturges-formelen.
h= | max - min | = | 190–156 | = | 33 | = | 5, 59 |
1+logg2m | 1+log230 | 5, 9 |
Dermed kan verdien av 6 tas som størrelsen på intervallet. Det skal også sies at verdien 1+log2m er formelen forbestemme antall intervaller (selvfølgelig med avrunding). Således, i henhold til formlene, oppnås 6 intervaller, som hver har en størrelse på 6. Og den første verdien av det innledende intervallet vil være tallet bestemt av formelen: min - h / 2=156 - 6/2=153. La oss lage en tabell som vil inneholde intervaller og antall elever hvis vekst f alt innenfor et visst intervall.
H | [153; 159) | [159; 165) | [165; 171) | [171; 177) | [177; 183) | [183; 189) |
P | 2 | 5 | 3 | 9 | 8 | 3 |
P | 0, 06 | 0, 17 | 0, 1 | 0, 3 | 0, 27 | 0, 1 |
Selvfølgelig er ikke dette alt, for det er mye flere formler i matematisk statistikk. Vi har bare vurdert noen grunnleggende konsepter.
Distribusjonsplan
De grunnleggende begrepene i matematisk statistikk inkluderer også en grafisk representasjon av fordelingen, som er preget av klarhet. Det finnes to typer grafer: polygon og histogram. Den første brukes for en diskret statistisk serie. Og for kontinuerlig distribusjon, henholdsvis den andre.