Logistisk regresjon: modell og metoder

Innholdsfortegnelse:

Logistisk regresjon: modell og metoder
Logistisk regresjon: modell og metoder
Anonim

Metoder for logistisk regresjon og diskriminantanalyse brukes når det er nødvendig å tydelig differensiere respondentene etter målkategorier. I dette tilfellet er gruppene selv representert ved nivåer av én enkeltvariantparameter. La oss se nærmere på den logistiske regresjonsmodellen og finne ut hvorfor den er nødvendig.

logistisk regresjon
logistisk regresjon

Generell informasjon

Et eksempel på et problem der logistisk regresjon brukes er klassifisering av respondenter i grupper som kjøper og ikke kjøper sennep. Differensiering utføres i samsvar med sosiodemografiske kjennetegn. Disse inkluderer spesielt alder, kjønn, antall pårørende, inntekt osv. I drift er det differensieringskriterier og en variabel. Sistnevnte koder for målkategoriene som respondentene faktisk skal deles inn i.

Nyances

Det skal sies at utvalget av tilfeller der logistisk regresjon brukes er mye smalere enn for diskriminantanalyse. I denne forbindelse vurderes bruken av sistnevnte som en universell metode for differensieringmer foretrukket. I tillegg anbefaler eksperter å starte klassifikasjonsstudier med diskriminantanalyse. Og kun ved usikkerhet om resultatene kan du bruke logistisk regresjon. Dette behovet skyldes flere faktorer. Logistisk regresjon brukes når det er en klar forståelse av typen uavhengige og avhengige variabler. Følgelig velges en av de 3 mulige prosedyrene. I diskriminantanalyse forholder forskeren seg alltid til én statisk operasjon. Det involverer én avhengig og flere uavhengige kategoriske variabler med en hvilken som helst type skala.

Visninger

Opgaven til en statistisk studie som bruker logistisk regresjon er å bestemme sannsynligheten for at en bestemt respondent vil bli tilordnet en bestemt gruppe. Differensiering utføres i henhold til visse parametere. I praksis, i henhold til verdiene til en eller flere uavhengige faktorer, er det mulig å klassifisere respondentene i to grupper. I dette tilfellet finner binær logistisk regresjon sted. De angitte parametrene kan også brukes når du deler inn i grupper på mer enn to. I en slik situasjon finner multinomial logistisk regresjon sted. De resulterende gruppene uttrykkes i nivåer av én enkelt variabel.

logistisk regresjon
logistisk regresjon

Eksempel

La oss si at det er respondentenes svar på spørsmålet om de er interessert i tilbudet om å kjøpe en tomt i forstedene til Moskva. Alternativene er "nei"og ja. Det er nødvendig å finne ut hvilke faktorer som har en dominerende innflytelse på beslutningen til potensielle kjøpere. For å gjøre dette blir respondentene stilt spørsmål om infrastrukturen til territoriet, avstanden til hovedstaden, området på stedet, tilstedeværelsen / fraværet av en boligbygning, etc. Ved hjelp av binær regresjon er det mulig å distribuere respondentene i to grupper. Den første vil inkludere de som er interessert i oppkjøpet - potensielle kjøpere, og den andre henholdsvis de som ikke er interessert i et slikt tilbud. For hver respondent vil i tillegg sannsynligheten for å bli tilordnet en eller annen kategori beregnes.

Komparative egenskaper

Forskjellen fra de to alternativene ovenfor er det forskjellige antallet grupper og typen avhengige og uavhengige variabler. Ved binær regresjon studeres for eksempel avhengigheten av en dikotom faktor av en eller flere uavhengige forhold. Dessuten kan sistnevnte ha hvilken som helst type skala. Multinomial regresjon betraktes som en variant av dette klassifiserings alternativet. I den tilhører mer enn 2 grupper den avhengige variabelen. De uavhengige faktorene må ha enten en ordinal eller nominell skala.

Logistisk regresjon i spss

I statistikkpakken 11-12 ble det introdusert en ny versjon av analyse - ordinær. Denne metoden brukes når den avhengige faktoren tilhører samme navn (ordinal) skala. I dette tilfellet velges uavhengige variabler av én bestemt type. De må være enten ordinære eller nominelle. Klassifiseringen i flere kategorier regnes som mestuniversell. Denne metoden kan brukes i alle studier som bruker logistisk regresjon. Den eneste måten å forbedre kvaliteten på en modell på er imidlertid å bruke alle tre teknikkene.

tilstrekkelig kvalitetskontroll og logistisk regresjon
tilstrekkelig kvalitetskontroll og logistisk regresjon

Ordinal classification

Det skal sies at det tidligere i statistikkpakken ikke var noen typisk mulighet for å utføre spesialisert analyse for avhengige faktorer med en ordinalskala. For alle variabler med mer enn 2 grupper ble den multinominale varianten brukt. Den relativt nylig introduserte ordinære analysen har en rekke funksjoner. De tar hensyn til skalaens spesifikasjoner. I mellomtiden, i læremidler, blir ordinær logistisk regresjon ofte ikke betraktet som en egen teknikk. Dette skyldes følgende: Ordinalanalyse har ingen vesentlige fordeler fremfor multinomial. Forskeren kan godt bruke sistnevnte i nærvær av både en ordinal og en nominell avhengig variabel. Samtidig skiller selve klassifiseringsprosessene seg nesten ikke fra hverandre. Dette betyr at utførelse av ordinær analyse ikke vil forårsake noen problemer.

Analyse alternativ

La oss vurdere et enkelt tilfelle – binær regresjon. Anta at etterspørselen etter kandidater fra et visst storbyuniversitet vurderes i prosessen med markedsundersøkelser. I spørreskjemaet ble respondentene stilt spørsmål, inkludert:

  1. Er du ansatt? (ql).
  2. Angi året for eksamen (sp. 21).
  3. Hva er gjennomsnitteteksamenspoeng (gjennomsnittlig).
  4. Kjønn (q22).

Logistisk regresjon vil evaluere virkningen av uavhengige faktorer aver, q 21 og q 22 på variabelen ql. Enkelt sagt vil hensikten med analysen være å bestemme den sannsynlige ansettelse av nyutdannede basert på informasjon om faget, året for eksamen og GPA.

logistisk sigmoid regresjonsindikator
logistisk sigmoid regresjonsindikator

Logistisk regresjon

For å angi parametere ved hjelp av binær regresjon, bruk Analyse►Regresjon►Binær logistikk-menyen. I vinduet Logistisk regresjon velger du den avhengige faktoren fra listen over tilgjengelige variabler til venstre. Det er ql. Denne variabelen må plasseres i Avhengig-feltet. Etter det er det nødvendig å introdusere uavhengige faktorer i Covariates-plottet - q 21, q 22, gjennomsnitt. Deretter må du velge hvordan du vil inkludere dem i analysen din. Hvis antallet uavhengige faktorer er mer enn 2, brukes metoden for samtidig introduksjon av alle variabler, som er satt som standard, men trinnvis. Den mest populære måten er Backward:LR. Ved å bruke Velg-knappen kan du inkludere ikke alle respondentene i studien, men bare en spesifikk målkategori.

Definer kategoriske variabler

Kategorisk-knappen skal brukes når en av de uavhengige variablene er nominell med mer enn 2 kategorier. I denne situasjonen, i vinduet Definer kategoriske variabler, plasseres nettopp en slik parameter på delen Kategoriske kovariater. I dette eksemplet er det ingen slik variabel. Deretter følger i nedtrekkslisten Kontrastvelg elementet Avvik og trykk på Endre-knappen. Som et resultat vil det dannes flere avhengige variabler fra hver nominell faktor. Antallet deres tilsvarer antallet kategorier i startbetingelsen.

Lagre nye variabler

Ved å bruke Lagre-knappen i hoveddialogboksen til studien settes opprettelsen av nye parametere. De vil inneholde indikatorene som er beregnet i regresjonsprosessen. Spesielt kan du lage variabler som definerer:

  1. Tilhøre en bestemt klassifiseringskategori (gruppemedlemskap).
  2. Sannsynlighet for å tildele en respondent til hver studiegruppe (Probabilities).

Når du bruker Alternativer-knappen, får forskeren ingen vesentlige alternativer. Følgelig kan det ignoreres. Etter å ha klikket på "OK"-knappen, vil resultatene av analysen vises i hovedvinduet.

logistisk regresjonskoeffisient
logistisk regresjonskoeffisient

Kvalitetssjekk for tilstrekkelighet og logistisk regresjon

Vurder tabellen Omnibus-tester av modellkoeffisienter. Den viser resultatene av analysen av kvaliteten på tilnærmingen til modellen. På grunn av det faktum at et trinn-for-trinn- alternativ ble satt, må du se på resultatene fra den siste fasen (trinn 2). Et positivt resultat vil bli vurdert dersom det oppdages en økning i khikvadratindikatoren ved overgang til neste trinn med høy grad av signifikans (Sig. < 0,05). Kvaliteten på modellen vurderes i modelllinjen. Hvis en negativ verdi oppnås, men den ikke anses som signifikant med den generelle høye materialiteten til modellen, vil den sistekan anses som praktisk egnet.

Tables

Model Summary gjør det mulig å estimere den totale variansindeksen, som er beskrevet av den konstruerte modellen (R Square index). Det anbefales å bruke Nagelker-verdien. Nagelkerke R Square-parameteren kan betraktes som en positiv indikator hvis den er over 0,50. Deretter blir resultatene av klassifiseringen evaluert, der de faktiske indikatorene for å tilhøre en eller annen kategori som studeres sammenlignes med de som er forutsagt basert på regresjonsmodellen. Til dette brukes Klassifikasjonstabellen. Det lar oss også trekke konklusjoner om riktigheten av differensiering for hver gruppe som vurderes.

logistisk regresjonsmodell
logistisk regresjonsmodell

Den følgende tabell gir en mulighet til å finne ut den statistiske signifikansen til de uavhengige faktorene som er lagt inn i analysen, samt hver ikke-standardisert logistisk regresjonskoeffisient. Basert på disse indikatorene er det mulig å forutsi tilhørigheten til hver respondent i utvalget til en bestemt gruppe. Ved å bruke Lagre-knappen kan du legge inn nye variabler. De vil inneholde informasjon om tilhørighet til en bestemt klassifikasjonskategori (Predictedcategory) og sannsynligheten for å bli inkludert i disse gruppene (Predicted probabilities membership). Etter å ha klikket "OK", vil beregningsresultatene vises i hovedvinduet til Multinomial Logistic Regression.

Den første tabellen, som inneholder indikatorer som er viktige for forskeren, er modelltilpasningsinformasjon. Et høyt nivå av statistisk signifikans vil indikere høy kvalitet ogegnethet til å bruke modellen til å løse praktiske problemer. En annen viktig tabell er Pseudo R-Square. Den lar deg estimere andelen av total varians i den avhengige faktoren, som bestemmes av de uavhengige variablene som er valgt for analyse. I følge tabellen Likelihood Ratio Tests kan vi trekke konklusjoner om den statistiske signifikansen til sistnevnte. Parameterestimater gjenspeiler ikke-standardiserte koeffisienter. De brukes i konstruksjonen av ligningen. I tillegg, for hver kombinasjon av variabler, ble den statistiske signifikansen av deres innvirkning på den avhengige faktoren bestemt. I mellomtiden, i markedsundersøkelser, blir det ofte nødvendig å differensiere respondenter etter kategori, ikke individuelt, men som en del av målgruppen. Til dette brukes tabellen Observerte og predikerte frekvenser.

Praktisk bruk

Den betraktede analysemetoden er mye brukt i handlendes arbeid. I 1991 ble den logistiske sigmoid-regresjonsindikatoren utviklet. Det er et lett-å-bruke og effektivt verktøy for å forutsi sannsynlige priser før de "overopphetes". Indikatoren er vist på kartet som en kanal dannet av to parallelle linjer. De er like langt fra trenden. Korridorens bredde vil kun avhenge av tidsrammen. Indikatoren brukes når du arbeider med nesten alle eiendeler - fra valutapar til edle metaller.

logistisk regresjon i spss
logistisk regresjon i spss

I praksis er det utviklet 2 nøkkelstrategier for bruk av instrumentet: for breakout ogen tur. I sistnevnte tilfelle vil traderen fokusere på dynamikken i prisendringer i kanalen. Når verdien nærmer seg støtte- eller motstandslinjen, legges det et spill på sannsynligheten for at bevegelsen starter i motsatt retning. Hvis prisen kommer nær den øvre grensen, kan du kvitte deg med eiendelen. Hvis det er på den nedre grensen, bør du tenke på kjøp. Breakout-strategien innebærer bruk av bestillinger. De er installert utenfor grensene på relativt liten avstand. Tatt i betraktning at prisen i noen tilfeller bryter dem for en kort tid, bør du spille det trygt og sette stopptap. Samtidig, uavhengig av den valgte strategien, må traderen selvfølgelig oppfatte og vurdere situasjonen som har oppstått på markedet så rolig som mulig.

Konklusjon

Dermed lar bruken av logistisk regresjon deg raskt og enkelt klassifisere respondenter i kategorier i henhold til de gitte parameterne. Når du analyserer, kan du bruke hvilken som helst bestemt metode. Spesielt er multinomial regresjon universell. Eksperter anbefaler imidlertid å bruke alle metodene beskrevet ovenfor i kombinasjon. Dette skyldes det faktum at i dette tilfellet vil kvaliteten på modellen være betydelig høyere. Dette vil i sin tur utvide applikasjonsområdet.

Anbefalt: