Multidimensjonal skalering: definisjon, mål, mål og eksempel

Innholdsfortegnelse:

Multidimensjonal skalering: definisjon, mål, mål og eksempel
Multidimensjonal skalering: definisjon, mål, mål og eksempel
Anonim

Multivariate scaling (MDS) er et verktøy for å visualisere likhetsnivået til enkelttilfeller i et datasett. Det refererer til et sett med relaterte ordinasjonsmetoder som brukes i visualisering av informasjon, spesielt for å vise informasjonen i en avstandsmatrise. Dette er en form for ikke-lineær dimensjonalitetsreduksjon. MDS-algoritmen har som mål å plassere hvert objekt i et N-dimensjon alt rom på en slik måte at avstandene mellom objektene bevares best mulig. Hvert objekt blir deretter tildelt koordinater i hver av de N dimensjonene.

Antallet dimensjoner til MDS-grafen kan overstige 2 og er spesifisert på forhånd. Hvis du velger N=2, optimaliseres objektplasseringen for 2D-spredningsplottet. Du kan se eksempler på flerdimensjonal skalering i bildene i artikkelen. Eksempler med symboler på russisk er spesielt illustrerende.

Flerdimensjonal skalering
Flerdimensjonal skalering

Essence

Methode for flerdimensjonal skalering (MMS,MDS) er et utvidet sett med klassiske verktøy som generaliserer optimaliseringsprosedyren for et sett med tapsfunksjoner og inputmatriser med kjente avstander med vekter og så videre. I denne sammenheng kalles en nyttig tapsfunksjon stress, som ofte minimeres ved en prosedyre som kalles stressmajorisering.

Manual

Det er flere alternativer for flerdimensjonal skalering. MDS-programmer minimerer automatisk belastningen for å få en løsning. Kjernen i den ikke-metriske MDS-algoritmen er en todelt optimaliseringsprosess. Først må den optimale monotone nærhetstransformasjonen finnes. For det andre må konfigurasjonspunktene plasseres optim alt slik at avstandene deres samsvarer med de skalerte nærhetsverdiene så nært som mulig.

Eksempel på flerdimensjonal skalering
Eksempel på flerdimensjonal skalering

Utvidelse

En utvidelse av metrisk flerdimensjonal skalering i statistikk der målrommet er et vilkårlig jevnt ikke-euklidsk rom. Der forskjellene er avstander på en overflate og målrommet er en annen overflate. Tematiske programmer lar deg finne et vedlegg med minimal forvrengning av en overflate til en annen.

Trinn

Det er flere trinn i å gjennomføre en studie med multivariat skalering:

  1. Formulering av problemet. Hvilke variabler vil du sammenligne? Hvor mange variabler vil du sammenligne? Til hvilket formål skal studien brukes?
  2. Henter inndata. Respondentene blir stilt en rekke spørsmål. For hvert produktpar blir de bedt om å vurdere likheten (vanligvis på en 7-punkts Likert-skala fra svært lik til svært ulik). Det første spørsmålet kan være for Coca-Cola/Pepsi, for eksempel, det neste for øl, det neste for Dr. Pepper, osv. Antall spørsmål avhenger av antall merker.
Avstandsskalering
Avstandsskalering

Alternative tilnærminger

Det er to andre tilnærminger. Det er en teknikk k alt "Perceptual Data: Derived Approach" hvor produkter dekomponeres i attributter og evalueringen gjøres på en semantisk differensialskala. En annen metode er "preferansedatatilnærmingen", der respondentene blir spurt om preferanser i stedet for likheter.

Den består av følgende trinn:

  1. Lanserer MDS-statistikkprogrammet. Programvare for å utføre prosedyren er tilgjengelig i mange statistiske programvarepakker. Det er ofte et valg mellom metrisk MDS (som omhandler intervall- eller forholdsnivådata) og ikke-metrisk MDS (som omhandler ordinære data).
  2. Bestemme antall målinger. Forskeren må bestemme antall målinger han vil lage på datamaskinen. Jo flere målinger, jo bedre er den statistiske tilpasningen, men jo vanskeligere er det å tolke resultatene.
  3. Vis resultater og definer målinger - statistikkprogrammet (eller relatert modul) vil vise resultatene. Kartet vil vise hvert produkt (vanligvis i 2D).rom). Nærheten av produkter til hverandre indikerer enten deres likhet eller preferanse, avhengig av hvilken tilnærming som ble brukt. Hvordan målinger faktisk samsvarer med målinger av systematferd er imidlertid ikke alltid klart. En subjektiv vurdering av samsvar kan foretas her.
  4. Sjekk resultater for pålitelighet og validitet – beregn R-kvadrat for å bestemme andelen av skalert datavarians som kan forklares med MDS-prosedyren. Kvadrat R 0,6 anses som minimum akseptabelt nivå. R i kvadrat 0,8 anses som bra for metrisk skalering, mens 0,9 anses som bra for ikke-metrisk skalering.
Multivariate skaleringsresultater
Multivariate skaleringsresultater

Ulike tester

Andre mulige tester er stresstester av Kruskal-typen, delte datatester, datastabilitetstester og re-test pålitelighetstester. Skriv i detalj om resultatene i testen. Sammen med kartleggingen bør i det minste et mål for avstand (f.eks. Sorenson-indeks, Jaccard-indeks) og pålitelighet (f.eks. spenningsverdi) spesifiseres.

Det er også svært ønskelig å gi en algoritme (f.eks. Kruskal, Mather) som ofte bestemmes av programmet som brukes (noen ganger erstatter algoritmerapporten), hvis du har gitt en startkonfigurasjon eller hatt et tilfeldig valg, nummer av dimensjonskjøringer, Monte Carlo-resultater, antall iterasjoner, stabilitetspoeng og proporsjonal varians for hver akse (r-kvadrat).

Visuell informasjon og dataanalysemetodeflerdimensjonal skalering

Informasjonsvisualisering er studiet av interaktive (visuelle) representasjoner av abstrakte data for å forbedre menneskelig kognisjon. Abstrakte data inkluderer både numeriske og ikke-numeriske data som tekstlig og geografisk informasjon. Informasjonsvisualisering skiller seg imidlertid fra vitenskapelig visualisering: "det er informasjonsvisualisering (informasjonsvisualisering) når en romlig representasjon er valgt, og scivis (vitenskapelig visualisering) når en romlig representasjon er gitt."

Fagtet informasjonsvisualisering oppsto fra forskning innen menneske-datamaskin-interaksjon, informatikkapplikasjoner, grafikk, visuell design, psykologi og forretningsmetoder. Det blir i økende grad brukt som en viktig komponent i vitenskapelig forskning, digitale biblioteker, datautvinning, økonomiske data, markedsundersøkelser, produksjonskontroll og så videre.

Metoder og prinsipper

Informasjonsvisualisering antyder at visualiserings- og interaksjonsmetoder drar nytte av rikdommen i menneskelig oppfatning, slik at brukere samtidig kan se, utforske og forstå store mengder informasjon. Informasjonsvisualisering har som mål å skape tilnærminger for å kommunisere abstrakte data, informasjon på en intuitiv måte.

Farge flerdimensjonal skalering
Farge flerdimensjonal skalering

Dataanalyse er en integrert del av all anvendt forskning og problemløsning i industrien. MestDe grunnleggende tilnærmingene til dataanalyse er visualisering (histogrammer, spredningsplott, overflateplott, trekart, parallelle koordinatplott, etc.), statistikk (hypotesetesting, regresjon, PCA, etc.), dataanalyse (matching, etc.)..d.) og maskinlæringsmetoder (clustering, klassifisering, beslutningstrær osv.).

Blant disse tilnærmingene er informasjonsvisualisering eller visuell dataanalyse mest avhengig av de kognitive ferdighetene til det analytiske personalet og tillater oppdagelsen av ustrukturert handlingskraftig innsikt som bare begrenses av menneskelig fantasi og kreativitet. En analytiker trenger ikke å lære noen komplekse teknikker for å kunne tolke datavisualiseringer. Informasjonsvisualisering er også et hypotesegenereringsskjema som kan og er vanligvis ledsaget av mer analytisk eller formell analyse som statistisk hypotesetesting.

Studie

Det moderne studiet av visualisering begynte med datagrafikk, som "helt fra begynnelsen ble brukt til å studere vitenskapelige problemer. Men i de første årene begrenset mangelen på grafikkkraft ofte nytten. Prioriteringen av visualisering begynte utvikles i 1987, med utgivelsen av spesiell programvare for Computer Graphics and Visualization in Scientific Computing. Siden den gang har det vært flere konferanser og workshops organisert i fellesskap av IEEE Computer Society og ACM SIGGRAPH".

De dekket de generelle temaene datavisualisering, informasjonsvisualisering og vitenskapelig visualisering,i tillegg til mer spesifikke områder som volumgjengivelse.

Multidimensjonal merkeskalering
Multidimensjonal merkeskalering

sammendrag

Generalisert flerdimensjonal skalering (GMDS) er en utvidelse av metrisk flerdimensjonal skalering der målrommet er ikke-euklidsk. Når forskjellene er avstander på en overflate, og målområdet er en annen overflate, lar GMDS deg finne hekkingen av en overflate til en annen med minimal forvrengning.

GMDS er en ny forskningslinje. For øyeblikket er hovedapplikasjonene deformerbar objektgjenkjenning (for eksempel for 3D ansiktsgjenkjenning) og teksturkartlegging.

Hensikten med flerdimensjonal skalering er å representere flerdimensjonale data. Flerdimensjonale data, det vil si data som krever mer enn to eller tre dimensjoner for å representere, kan være vanskelig å tolke. En tilnærming til forenkling er å anta at dataene av interesse ligger på en innebygd ikke-lineær manifold i et høydimensjon alt rom. Hvis samleren har en lav nok dimensjon, kan dataene visualiseres i lavdimensjon alt rom.

Mange av de ikke-lineære dimensjonalitetsreduksjonsmetodene er relatert til lineære metoder. Ikke-lineære metoder kan grovt klassifiseres i to grupper: de som gir kartlegging (enten fra høydimensjon alt rom til lavdimensjonal innebygging, eller omvendt), og de som ganske enkelt gir visualisering. I sammenheng med maskinlæring kan kartleggingsmetoder sees på somet foreløpig stadium av funksjonsekstraksjon, hvoretter algoritmer for mønstergjenkjenning brukes. Vanligvis er de som bare gir visualiseringer basert på nærhetsdata - dvs. avstandsmålinger. Flerdimensjonal skalering er også ganske vanlig innen psykologi og andre humaniora.

Diagonal flerdimensjonal skalering
Diagonal flerdimensjonal skalering

Hvis antallet attributter er stort, er plassen til unike mulige strenger også eksponentielt stor. Jo større dimensjonen er, desto vanskeligere blir det å skildre rommet. Dette skaper mange problemer. Algoritmer som opererer på høydimensjonale data har en tendens til å ha svært høy tidskompleksitet. Å redusere data til færre dimensjoner gjør ofte analysealgoritmer mer effektive og kan hjelpe maskinlæringsalgoritmer til å gjøre mer nøyaktige spådommer. Dette er grunnen til at flerdimensjonal dataskalering er så populær.

Anbefalt: