Klyngemetode: beskrivelse, grunnleggende konsepter, applikasjonsfunksjoner

Innholdsfortegnelse:

Klyngemetode: beskrivelse, grunnleggende konsepter, applikasjonsfunksjoner
Klyngemetode: beskrivelse, grunnleggende konsepter, applikasjonsfunksjoner
Anonim

Klyngemetoden er oppgaven å gruppere et sett med objekter på en slik måte at de i samme gruppe ligner mer på hverandre enn objekter i andre bransjer. Det er hovedoppgaven for datautvinning og en generell statistisk analyseteknikk som brukes på mange felt, inkludert maskinlæring, mønstergjenkjenning, bildegjenkjenning, informasjonshenting, datakomprimering og datagrafikk.

Optimaliseringsproblem

ved å bruke klyngemetoden
ved å bruke klyngemetoden

Klyngemetoden i seg selv er ikke én spesifikk algoritme, men en generell oppgave som må løses. Dette kan oppnås med ulike algoritmer som er vesentlig forskjellige når det gjelder å forstå hva som utgjør en gruppe og hvordan man finner den effektivt. Bruk av klyngemetoden for dannelse av metasubjekter inkluderer bruk av en gruppe medsmå avstander mellom medlemmer, tette områder i rommet, intervaller eller visse statistiske fordelinger. Derfor kan klynging formuleres som et multi-objektiv optimaliseringsproblem.

De riktige metodene og parameterinnstillingene (inkludert elementer som avstandsfunksjonen som skal brukes, tetthetsterskelen eller antall forventede klynger) avhenger av det individuelle datasettet og den tiltenkte bruken av resultatene. Analyse som sådan er ikke en automatisk oppgave, men en iterativ prosess for kunnskapsoppdagelse eller interaktiv multi-objektiv optimalisering. Denne klyngemetoden inkluderer prøve- og feilforsøk. Det er ofte nødvendig å endre dataforbehandling og modellparametere til resultatet oppnår de ønskede egenskapene.

I tillegg til begrepet "clustering" finnes det en rekke ord med lignende betydninger, inkludert automatisk klassifisering, numerisk taksonomi, bothryologi og typologisk analyse. Subtile forskjeller ligger ofte i bruken av klyngemetoden for å danne metasubjektrelasjoner. Mens ved datautvinning er de resulterende gruppene av interesse, i automatisk klassifisering er det allerede den diskriminerende makten som utfører disse funksjonene.

Klyngeanalyse var basert på en rekke verk av Kroeber i 1932. Det ble introdusert i psykologi av Zubin i 1938 og av Robert Tryon i 1939. Og disse verkene har blitt brukt av Cattell siden 1943 for å indikere klassifiseringen av klyngemetoder i teorien.

periode

brukmetode
brukmetode

Begrepet "klynge" kan ikke defineres nøyaktig. Dette er en av grunnene til at det er så mange klyngingsmetoder. Det er en fellesnevner: en gruppe dataobjekter. Imidlertid bruker forskjellige forskere forskjellige modeller. Og hver av disse bruken av klyngemetoder involverer forskjellige data. Konseptet funnet av ulike algoritmer er betydelig forskjellig i egenskapene.

Å bruke klyngemetoden er nøkkelen til å forstå forskjellene mellom instruksjonene. Typiske klyngemønstre inkluderer:

  • Centroid s. Dette er for eksempel når k-betyr klynging representerer hver klynge med én gjennomsnittsvektor.
  • Tilkoblingsmodell s. Dette er for eksempel hierarkisk clustering, som bygger modeller basert på avstandstilkobling.
  • Distribusjonsmodell s. I dette tilfellet blir klynger modellert ved å bruke klyngemetoden for å danne statistiske metasubjektfordelinger. For eksempel multivariat normal separasjon, som kan brukes for forventningsmaksimeringsalgoritmen.
  • Tetthetsmodell s. Dette er for eksempel DBSCAN (Spatial Clustering Algorithm with Noise) og OPTICS (Order Points for Structure Detection), som definerer klynger som tilkoblede tette områder i datarom.
  • Subspace modell c. I biclustering (også kjent som co-clustering eller to moduser), modelleres grupper med begge elementene og med de riktige attributtene.
  • Modell s. Noen algoritmer gjør det ikkeraffinert forhold for deres klyngemetode for å generere meta-emneresultater og ganske enkelt gi informasjonsgruppering.
  • Modell basert på grafer. En klikk, det vil si en undergruppe av noder, slik at annenhver forbindelse i kantdelen kan betraktes som en prototype av klyngeformen. Svekkelsen av den totale etterspørselen er kjent som kvasi-klikker. Nøyaktig det samme navnet er presentert i HCS-klyngealgoritmen.
  • Neurale modeller s. Det mest kjente nettverket uten tilsyn er det selvorganiserende kartet. Og det er disse modellene som vanligvis kan karakteriseres som lik en eller flere av de ovennevnte klyngemetodene for dannelse av meta-subjektresultater. Det inkluderer underromssystemer når nevrale nettverk implementerer den nødvendige formen for hoved- eller uavhengig komponentanalyse.

Dette begrepet er faktisk et sett med slike grupper, som vanligvis inneholder alle objektene i settet med dataklyngemetoder. I tillegg kan det indikere forholdet mellom klynger til hverandre, for eksempel et hierarki av systemer innebygd i hverandre. Grupperingen kan deles inn i følgende aspekter:

  • Hard centroid clustering-metode. Her tilhører hvert objekt en gruppe eller er utenfor den.
  • Mykt eller uklart system. På dette tidspunktet tilhører hvert objekt allerede til en viss grad en hvilken som helst klynge. Det kalles også c-betyr fuzzy clustering-metoden.

Og mer subtile forskjeller er også mulig. For eksempel:

  • Streng partisjoneringsklynger. Herhvert objekt tilhører nøyaktig én gruppe.
  • Streng partisjoneringsklynger med uteliggere. I dette tilfellet kan det hende at objekter heller ikke tilhører noen klynge og anses som unødvendige.
  • Overlappende gruppering (også alternativ, med flere visninger). Her kan objekter tilhøre mer enn én gren. Vanligvis involverer solide klynger.
  • Hierarkiske klyngemetoder. Objekter som tilhører en undergruppe tilhører også det overordnede undersystemet.
  • Danning av underrom. Selv om det ligner på overlappende klynger, bør gjensidige grupper ikke overlappe i et unikt definert system.

Instruksjoner

ved å bruke klyngemetoden for å danne
ved å bruke klyngemetoden for å danne

Som nevnt ovenfor, kan klyngealgoritmer klassifiseres basert på deres klyngemodell. Den følgende gjennomgangen vil kun liste de mest fremtredende eksemplene på disse instruksjonene. Siden det kan være over 100 publiserte algoritmer, gir ikke alle modeller for klynger og kan derfor ikke enkelt klassifiseres.

Det finnes ingen objektivt korrekt klyngealgoritme. Men, som nevnt ovenfor, er instruksjonen alltid i observatørens synsfelt. Den mest passende klyngealgoritmen for et bestemt problem må ofte velges eksperimentelt, med mindre det er en matematisk grunn til å foretrekke en modell fremfor en annen. Det skal bemerkes at en algoritme designet for en enkelt type vanligvis ikke fungerer medet datasett som inneholder et radik alt annet emne. For eksempel kan ikke k-betyr finne ikke-konvekse grupper.

Tilkoblingsbasert gruppering

klyngemetode
klyngemetode

Denne foreningen er også kjent under navnet, den hierarkiske modellen. Den er basert på den typiske ideen om at objekter er mer knyttet til nabodeler enn til de som er mye lenger unna. Disse algoritmene forbinder objekter og danner forskjellige klynger, avhengig av avstanden deres. En gruppe kan hovedsakelig beskrives ved den maksimale avstanden som trengs for å koble sammen de forskjellige delene av klyngen. På alle mulige avstander vil det dannes andre grupper, som kan representeres ved hjelp av et dendrogram. Dette forklarer hvor det vanlige navnet "hierarkisk clustering" kommer fra. Det vil si at disse algoritmene ikke gir en enkelt partisjon av datasettet, men gir i stedet en omfattende autoritetsrekkefølge. Det er takket være ham at det er et avløp med hverandre på visse avstander. I et dendrogram angir y-aksen avstanden som klyngene kommer sammen. Og objektene er ordnet langs X-linjen slik at gruppene ikke blandes.

Tilkoblingsbasert clustering er en hel familie av metoder som er forskjellige i måten de beregner avstander på. I tillegg til det vanlige valget av avstandsfunksjoner, må brukeren også ta stilling til koblingskriteriet. Siden en klynge består av flere objekter, er det mange alternativer for å beregne den. Et populært valg er kjent som enspaksgruppering, dette er metodenfull lenke, som inneholder UPGMA eller WPGMA (uvektet eller vektet ensemble av par med aritmetisk gjennomsnitt, også kjent som gjennomsnittlig koblingsklynge). I tillegg kan det hierarkiske systemet være agglomerativt (starter med individuelle elementer og kombinerer dem i grupper) eller deler (starter med et komplett datasett og deler det opp i seksjoner).

Distribuert clustering

klyngemetode for å danne
klyngemetode for å danne

Disse modellene er nærmest knyttet til statistikk som er basert på splittelser. Klynger kan enkelt defineres som objekter som mest sannsynlig tilhører samme distribusjon. En praktisk funksjon ved denne tilnærmingen er at den er veldig lik måten kunstige datasett lages på. Ved å prøve tilfeldige objekter fra en distribusjon.

Selv om det teoretiske grunnlaget for disse metodene er utmerket, lider de av ett nøkkelproblem, kjent som overfitting, med mindre det settes begrensninger på modellens kompleksitet. En større assosiasjon vil vanligvis forklare dataene bedre, noe som gjør det vanskelig å velge riktig metode.

Gaussisk blandingsmodell

Denne metoden bruker alle slags forventningsmaksimeringsalgoritmer. Her er datasettet vanligvis modellert med et fast (for å unngå å overstyre) antall Gauss-fordelinger som initialiseres tilfeldig og hvis parametere er iterativt optimalisert for å passe bedre til datasettet. Dette systemet vil konvergere til et lok alt optimum. Derfor kan flere løp giforskjellige resultater. For å få den strammeste klyngingen, tildeles funksjoner ofte til den gaussiske distribusjonen de mest sannsynlig tilhører. Og for mykere grupper er dette ikke nødvendig.

Distribusjonsbasert clustering skaper komplekse modeller som til slutt kan fange opp korrelasjonen og avhengigheten mellom attributter. Imidlertid påfører disse algoritmene en ekstra belastning for brukeren. For mange datasett i den virkelige verden er det kanskje ikke en kortfattet definert matematisk modell (for eksempel å anta at en gaussisk fordeling er en ganske sterk antagelse).

Tetthetsbasert gruppering

gruppering for å danne
gruppering for å danne

I dette eksemplet er gruppene i utgangspunktet definert som områder med høyere impermeabilitet enn resten av datasettet. Gjenstander i disse sjeldne delene, som er nødvendige for å skille alle komponenter, regnes vanligvis som støy- og kantpunkter.

Den mest populære tetthetsbaserte klyngemetoden er DBSCAN (Spatial Noise Clustering Algorithm). I motsetning til mange nyere metoder, har den en veldefinert klyngekomponent k alt "density reachability". I likhet med koblingsbasert clustering, er den basert på koblingspunkter innenfor visse avstandsterskler. Imidlertid samler denne metoden bare de elementene som tilfredsstiller tetthetskriteriet. I den originale versjonen, definert som minimum antall andre objekter i denne radiusen, består klyngen av alletetthetsrelaterte gjenstander (som kan danne en friformgruppe, i motsetning til mange andre metoder), og alle objekter som er innenfor det tillatte området.

En annen interessant egenskap ved DBSCAN er at kompleksiteten er ganske lav - den krever et lineært antall rekkeviddespørringer mot databasen. Og det er også uvanlig at den vil finne i hovedsak de samme resultatene (dette er deterministisk for kjerne- og støypunkter, men ikke for grenseelementer) i hver kjøring. Derfor er det ikke nødvendig å kjøre det flere ganger.

Den største ulempen med DBSCAN og OPTICS er at de forventer noe fall i tetthet for å oppdage klyngegrenser. For eksempel, i datasett med overlappende Gauss-fordelinger – et vanlig brukstilfelle for kunstige objekter – virker klyngegrensene som genereres av disse algoritmene ofte vilkårlige. Dette skjer fordi tettheten av grupper kontinuerlig synker. Og i et gaussisk blandingsdatasett utkonkurrerer disse algoritmene nesten alltid metoder som EM clustering, som er i stand til å modellere disse typene systemer nøyaktig.

Mean displacement er en klyngingstilnærming der hvert objekt flyttes til det tetteste området i nabolaget basert på et estimat av hele kjernen. Til slutt konvergerer objektene til lokale ugjennomtrengelighetsmaksima. I likhet med k-betyr klynging, kan disse "tetthetsatttraktorene" tjene som representanter for et datasett. Men det gjennomsnittlige skiftetkan oppdage vilkårlig formede klynger som ligner på DBSCAN. På grunn av den dyre iterative prosedyren og tetthetsestimeringen, er gjennomsnittlig forskyvning vanligvis langsommere enn DBSCAN eller k-Means. I tillegg er anvendeligheten av den typiske skiftalgoritmen på høydimensjonale data vanskelig på grunn av den uensartede oppførselen til kjernetetthetsestimatet, noe som fører til overdreven fragmentering av klyngehalene.

Rating

klyngemetode for dannelse av metasubjekt
klyngemetode for dannelse av metasubjekt

Å bekrefte klyngeresultater er like vanskelig som klynging i seg selv. Populære tilnærminger inkluderer "intern" skåring (hvor systemet er redusert til et enkelt mål på kvalitet) og selvfølgelig "ekstern" skåring (hvor klyngingen sammenlignes med en eksisterende "ground truth"-klassifisering). Og menneskeekspertens manuelle poengsum og indirekte poengsum blir funnet ved å undersøke nytten av clustering i den tiltenkte applikasjonen.

Interne flaggtiltak lider av problemet at de representerer funksjoner som i seg selv kan betraktes som grupperingsmål. For eksempel er det mulig å gruppere data gitt av Silhouette-koeffisienten, bortsett fra at det ikke er noen kjent effektiv algoritme for å gjøre det. Ved å bruke et slikt internt mål for evaluering, er det bedre å sammenligne likheten mellom optimaliseringsproblemer.

Utsidemerket har lignende problemer. Hvis det er slike etiketter for "grunnsannhet", er det ikke nødvendig å gruppere. Og i praktiske applikasjoner er det vanligvis ingen slike konsepter. På den annen side reflekterer etikettene bare én mulig partisjon av datasettet, noe som ikke betyrat det ikke finnes noen annen (kanskje enda bedre) gruppering.

Så ingen av disse tilnærmingene kan til slutt bedømme den faktiske kvaliteten. Men dette krever menneskelig vurdering, som er svært subjektivt. Likevel kan slik statistikk være informativ for å identifisere dårlige klynger. Men man bør ikke underslå den subjektive vurderingen av en person.

Indre merke

Når resultatet av en clustering evalueres basert på data som selv har blitt clustered, omtales dette som dette begrepet. Disse metodene tildeler generelt det beste resultatet til en algoritme som lager grupper med høy likhet innenfor og lav mellom grupper. En av ulempene med å bruke interne kriterier i klyngeevaluering er at høye skårer ikke nødvendigvis fører til effektive søknader om informasjonsinnhenting. Denne poengsummen er også partisk mot algoritmer som bruker samme modell. For eksempel, k-betyr klynging optimaliserer naturlig funksjonsavstander, og et internt kriterium basert på det vil sannsynligvis overvurdere den resulterende klyngingen.

Derfor er disse evalueringstiltakene best egnet for å få en ide om situasjoner der en algoritme presterer bedre enn en annen. Men dette betyr ikke at hver informasjon gir mer pålitelige resultater enn andre. Gyldighetsperioden målt med en slik indeks avhenger av påstanden om at strukturen eksisterer i datasettet. En algoritme utviklet for noen typer har ingen sjanse hvis settet inneholder radik altannen sammensetning eller om vurderingen måler ulike kriterier. For eksempel kan k-betyr clustering bare finne konvekse klynger, og mange poengindekser antar samme format. I et datasett med ikke-konvekse modeller er det uaktuelt å bruke k-midler og typiske evalueringskriterier.

Ekstern evaluering

Med denne typen balling blir klyngeresultater evaluert basert på data som ikke ble brukt til gruppering. Det vil si som kjente klassemerker og eksterne tester. Slike spørsmål består av et sett med forhåndsklassifiserte gjenstander og lages ofte av eksperter (mennesker). Som sådan kan referansesett sees på som gullstandarden for evaluering. Disse typer scoringsmetoder måler hvor nær clustering er gitte referanseklasser. Imidlertid har det nylig blitt diskutert om dette er tilstrekkelig for ekte data eller bare for syntetiske sett med faktisk grunnsannhet. Siden klasser kan inneholde intern struktur, og de eksisterende attributtene kanskje ikke tillater separasjon av klynger. Også fra et kunnskapsoppdagelsessynspunkt vil reprodusering av kjente fakta ikke nødvendigvis gi det forventede resultatet. I et spesielt begrenset clustering-scenario der metainformasjon (som klasseetiketter) allerede brukes i grupperingsprosessen, er det ikke trivielt å beholde all informasjonen for evalueringsformål.

Nå er det klart hva som ikke gjelder for klyngemetoder, og hvilke modeller som brukes til disse formålene.

Anbefalt: