Data Mining er Konsept, algoritmeanalyse, formål og anvendelse

Innholdsfortegnelse:

Data Mining er Konsept, algoritmeanalyse, formål og anvendelse
Data Mining er Konsept, algoritmeanalyse, formål og anvendelse
Anonim

Utviklingen av informasjonsteknologi gir praktiske resultater. Men slike oppgaver som å finne, analysere og bruke informasjon har ennå ikke fått et effektivt verktøy av høy kvalitet. Det er analytiske og kvantitative verktøy, de fungerer virkelig. Men en kvalitativ revolusjon i bruken av informasjon har ikke skjedd ennå.

Lenge før bruken av datateknologi trengte en person å behandle store mengder informasjon og taklet dette etter beste erfaring og tilgjengelige tekniske evner.

Utvikling av kunnskap og ferdigheter har alltid dekket reelle behov og tilsvart dagens oppgaver. Data mining er et samlenavn som brukes for å referere til et sett med metoder for å oppdage tidligere ukjent, ikke-triviell, praktisk nyttig og tilgjengelig kunnskap i data, nødvendig for å ta beslutninger på ulike områder av menneskelig aktivitet.

Menneske, intelligens, programmering

En person vet alltid hvordan han skal opptre i enhver situasjon. Uvitenhet eller en ukjent situasjon hindrer ham ikke i å ta en avgjørelse. Det kan stilles spørsmål ved objektiviteten og rimeligheten til enhver menneskelig beslutning, men den vil bli akseptert.

Intelligens er basert på: arvelig "mekanisme", ervervet, aktiv kunnskap. Kunnskap brukes for å løse problemer som oppstår foran en person.

  1. Intelligence er et unikt sett med kunnskap og ferdigheter: muligheter og grunnlag for menneskeliv og arbeid.
  2. Intelligens er i stadig utvikling, og menneskelige handlinger har innvirkning på andre mennesker.

Programmering er det første forsøket på å formalisere representasjonen av data og prosessen med å lage algoritmer.

Mann, intelligens, programmering
Mann, intelligens, programmering

Kunstig intelligens (AI) er bortkastet tid og ressurser, men resultatene av mislykkede forsøk fra forrige århundre innen AI ble liggende i minnet, ble brukt i forskjellige ekspertsystemer (intelligente) og ble transformert, spesielt til algoritmer (regler) og matematisk (logisk) dataanalyse og Data Mining.

Informasjon og det vanlige søket etter en løsning

Et vanlig bibliotek er et depot for kunnskap, og det trykte ordet og grafikken har ennå ikke gitt håndflaten til datateknologi. Bøker om fysikk, kjemi, teoretisk mekanikk, design, naturhistorie, filosofi, naturvitenskap, botanikk, lærebøker, monografier, vitenskapsfolks arbeider, konferansemateriell, rapporter om utviklingsarbeid osv. er alltid relevante og pålitelige.

Bibliotek er mange forskjellige kilder som er forskjelligepresentasjonsform av materiale, opphav, struktur, innhold, presentasjonsstil osv.

Bibliotek: bøker, blader og andre trykksaker
Bibliotek: bøker, blader og andre trykksaker

Utover er alt synlig (lesbart, tilgjengelig) for forståelse og bruk. Du kan løse ethvert problem, stille oppgaven riktig, begrunne løsningen, skrive et essay eller semesteroppgave, velge materiale til et vitnemål, analysere kilder om emnet for en avhandling eller en vitenskapelig og analytisk rapport.

Alle informasjonsproblemer kan løses. Med tilbørlig utholdenhet og dyktighet vil et nøyaktig og pålitelig resultat oppnås. I denne sammenhengen er Data Mining en helt annen tilnærming.

I tillegg til resultatet får en person "aktive lenker" til alt som ble sett i prosessen med å nå målet. Kildene han brukte for å løse problemet kan refereres til, og ingen vil bestride at kilden eksisterer. Dette er ikke en garanti for autentisitet, men det er et sikkert vitnesbyrd for hvem ansvaret for autentisitet er "avmeldt". Fra dette synspunktet betyr Data Mining stor tvil om påliteligheten og ingen "aktive" lenker.

Ved å løse flere problemer, får en person resultater og utvider sitt intellektuelle potensial til mange "aktive lenker". Hvis en ny oppgave "aktiverer" en allerede eksisterende kobling, vil personen vite hvordan den skal løses: det er ikke nødvendig å søke etter noe igjen.

"Aktiv lenke" er en fast assosiasjon: hvordan og hva du skal gjøre i et bestemt tilfelle. Den menneskelige hjernen husker automatisk alt som ser ut til å være potensielt interessant, nyttig.eller sannsynligvis vil bli nødvendig i fremtiden. På mange måter skjer dette på et underbevisst nivå, men så snart en oppgave oppstår som kan assosieres med en "aktiv lenke", dukker den umiddelbart opp i tankene og en løsning vil bli oppnådd uten ytterligere informasjonssøk. Data Mining er alltid en repetisjon av søkealgoritmen, og denne algoritmen endres ikke.

Vanlig søk: "kunstneriske" problemer

Matebibliotek og det å søke etter informasjon i det er en relativt svak oppgave. Å finne en eller annen måte å løse et integral på, bygge en matrise eller utføre operasjonen med å legge til to imaginære tall er arbeidskrevende, men enkelt. Du må sortere gjennom en rekke bøker, hvorav mange er skrevet på et bestemt språk, finne riktig tekst, studere den og finne den nødvendige løsningen.

Over tid vil opptelling bli kjent, og den akkumulerte erfaringen vil tillate deg å navigere i bibliotekinformasjonen og andre matematiske problemer. Dette er et begrenset informasjonsrom med spørsmål og svar. Et karakteristisk trekk: et slikt søk etter informasjon samler kunnskap for å løse lignende problemer. En persons søk etter informasjon etterlater spor ("aktive lenker") i hans minne om mulige løsninger på andre problemer.

I skjønnlitteratur, finn svaret på spørsmålet: "Hvordan levde folk i januar 1248?" veldig vanskelig. Enda vanskeligere er det å svare på spørsmålet om hva som fantes i butikkhyllene og hvordan mathandelen var organisert. Selv om en forfatter klart og direkte skrev om dette i sin roman, om navnet til denne forfatteren kunne bli funnet, så tviler man påpåliteligheten til de mottatte dataene forblir. Pålitelighet er en kritisk egenskap for enhver mengde informasjon. Kilden, forfatteren og bevis som utelukker feilen i resultatet er viktig.

Objektive omstendigheter i en bestemt situasjon

Mennesket ser, hører, føler. Noen spesialister er flytende i en unik følelse - intuisjon. Forklaringen av problemet krever informasjon, prosessen med å løse problemet er oftest ledsaget av en foredling av problemformuleringen. Dette er de minste problemene som følger med å flytte informasjon inn i innvollene i et datasystem.

Informasjon i det virtuelle rommet
Informasjon i det virtuelle rommet

Biblioteket og arbeidskollegene er indirekte deltakere i beslutningsprosessen. Utformingen av boken (kilden), grafikken i teksten, funksjonene ved å dele informasjon i overskrifter, fotnoter etter setninger, emneindeksen, listen over primærkilder - alt vekker assosiasjoner i en person som indirekte påvirker prosessen med å løse problemet.

Tid og sted for å løse problemet er avgjørende. En person er så innrettet at han ufrivillig tar hensyn til alt som omgir ham i ferd med å løse et problem. Det kan være distraherende, eller det kan være stimulerende. Data Mining vil aldri "forstå".

Informasjon i virtuelt rom

En person har alltid bare vært interessert i pålitelig informasjon om en hendelse, fenomen, objekt, algoritme for å løse et problem. Mennesket har alltid forestilt seg nøyaktig hvordan det kan oppnå det ønskede målet.

Utseendet til datamaskiner og informasjonssystemer burde ha gjort livet enklere for en person, men alt har bare blitt mer komplisert. Informasjon migrerte til innvollene i datasystemer og forsvant ut av syne. For å velge de nødvendige dataene, må du lage en riktig algoritme eller formulere en spørring til databasen.

Data inne i informasjonssystemet
Data inne i informasjonssystemet

Spørsmålet må være riktig. Først da kan du få svar. Men det er fortsatt tvil om ektheten. Slik sett er Data Mining egentlig "utgravninger", det er "informasjonsutvinning". Slik er det mote å oversette denne setningen. Den russiske versjonen er data mining eller data mining teknologi.

I verkene til autoritative spesialister er oppgavene til Data Mining angitt som følger:

  • klassifisering;
  • clustering;
  • association;
  • sequence;
  • forecasting.

Ut fra den praksisen som veileder en person i manuell behandling av informasjon, er alle disse standpunktene diskutable. Uansett, en person behandler informasjon automatisk og tenker ikke på å klassifisere data, kompilere tematiske grupper av objekter (clustering), søke etter tidsmønstre (sekvens) eller forutsi resultatet.

Alle disse posisjonene i menneskesinnet er representert av aktiv kunnskap, som dekker flere posisjoner og dynamisk bruker logikken til å behandle de første dataene. En persons underbevissthet spiller en viktig rolle, spesielt når han er spesialist på et bestemt kunnskapsfelt.

Eksempel: Engroshandel med datautstyr

Oppgaven er enkel. Det er fleredusinvis av leverandører av datautstyr og periferiutstyr. Hver har en prisliste i xls-format (Excel-fil), som kan lastes ned fra den offisielle nettsiden til leverandøren. Det kreves å lage en nettressurs som leser Excel-filer, konverterer dem til databasetabeller og lar kundene velge de ønskede produktene til de laveste prisene.

Problemer oppstår umiddelbart. Hver leverandør tilbyr sin egen versjon av strukturen og innholdet i xls-filen. Du kan få filen ved å laste den ned fra leverandørens nettside, bestille den på e-post, eller få en nedlastingslenke via din personlige konto, det vil si ved å registrere deg offisielt hos leverandøren.

Virtuell datamaskinbutikk
Virtuell datamaskinbutikk

Løsningen av problemet (helt i begynnelsen) er teknologisk enkel. Laster filer (initielle data), en filgjenkjenningsalgoritme skrives for hver leverandør og dataene plasseres i en stor tabell med startdata. Etter at alle data er mottatt, etter at mekanismen for kontinuerlig bytte (daglig, ukentlig eller ved endring) av ferske data er etablert:

  • bytt sortiment;
  • prisendringer;
  • avklaring av antall på lager;
  • justering av garantivilkår, spesifikasjoner osv.

Det er her de virkelige problemene begynner. Saken er at leverandøren kan skrive:

  • notebook Acer;
  • notebook Asus;
  • Dell bærbar PC.

Vi snakker om samme produkt, men fra forskjellige produsenter. Hvordan matche bærbare=bærbare eller hvordan fjerne Acer, Asus og Dell fra en produktlinje?

Formenneske er ikke et problem, men hvordan vil algoritmen "forstå" at Acer, Asus, Dell, Samsung, LG, HP, Sony er varemerker eller leverandører? Hvordan matche "skriver" og skriver, "skanner" og "MFP", "kopimaskin" og "MFP", "hodetelefoner" med "hodesett", "tilbehør" med "tilbehør"?

Å bygge et kategoritre basert på kildedata (kildefiler) er allerede et problem når du må sette alt til automatisk.

Data-sampling: utgravninger av "freshly poured"

Oppgaven med å lage en database over leverandører av datautstyr er løst. Et tre med kategorier er bygget, et felles bord med tilbud fra alle leverandører fungerer.

Typiske datautvinningsoppgaver i sammenheng med dette eksempelet:

  • finn et produkt til den laveste prisen;
  • velg varen med den laveste fraktkostnaden og prisen;
  • produktanalyse: egenskaper og priser etter kriterier.

I det virkelige arbeidet til en leder som bruker data fra flere dusin leverandører, vil det være mange variasjoner av disse oppgavene, og enda flere virkelige situasjoner.

For eksempel er det en leverandør "A" som selger ASUS VivoBook S15: forhåndsbetaling, levering 5 dager etter faktisk mottak av penger. Det er en leverandør "B" av samme produkt av samme modell: betaling ved mottak, levering etter kontraktsinngåelse innen en dag, prisen er halvannen ganger høyere.

Data Mining begynner - "utgravninger". Figurlige uttrykk: «utgravninger» eller «data mining» er synonymer. Det handler om hvordan man får en grunn til å ta en avgjørelse.

Leverandører "A" og "B" har en historikk med leveranser. Karakterforskuddsbetaling i det første tilfellet mot betaling ved mottak i det andre tilfellet, tatt i betraktning at leveringssvikten i det andre tilfellet er 65 % høyere. Risikoen for straff fra klienten er høyere/lavere. Hvordan og hva skal du bestemme og hvilken beslutning du skal ta?

På den annen side: databasen ble opprettet av en programmerer og en leder. Hvis programmereren og lederen har endret seg, hvordan bestemme den nåværende tilstanden til databasen og lære hvordan du bruker den riktig? Du må også gjøre data mining. Data Mining tilbyr en rekke matematiske og logiske metoder som ikke bryr seg om hva slags data det forskes på. Dette gir riktig løsning i noen tilfeller, men ikke i alle.

Flytte inn i virtualitet og finne mening

Data Mining-metoder blir meningsfulle så snart informasjonen skrives inn i databasen og forsvinner fra "synsfeltet". Handel med datautstyr er en interessant oppgave, men det er bare en forretning. Hvor godt han er organisert i selskapet avhenger av suksessen.

Klimaendringer på planeten og været i en bestemt by er av interesse for alle, ikke bare profesjonelle klimaeksperter. Tusenvis av sensorer måler vind, fuktighet, trykk, data fra kunstige jordsatellitter, og det er en historie med data i årevis og århundrer.

Værdata handler ikke bare om å bestemme om man skal ta med en paraply på jobb eller ikke. Data Mining-teknologier er sikker flyvning for et fly, stabil drift av en motorvei og pålitelig forsyning av petroleumsprodukter til sjøs.

"Rå" data sendes til informasjonensystem. Oppgavene til Data Mining er å gjøre dem om til et systematisert system av tabeller, etablere lenker, fremheve grupper med homogene data og oppdage mønstre.

Klima, vær og rådata
Klima, vær og rådata

Matematiske og logiske metoder siden kvantitativ analyses dager OLAP (On-line Analytical Processing) har vist seg praktisk. Her lar teknologien deg finne mening, og ikke miste den, som i eksemplet med salg av datautstyr.

I tillegg i globale oppgaver:

  • transnasjonal virksomhet;
  • flytransportledelse;
  • studie av jordens tarmer eller sosiale problemer (på delstatsnivå);
  • studie av medikamenters effekt på en levende organisme;
  • forutsi konsekvensene av byggingen av en industribedrift osv.

Data Mine-teknologier og å gjøre «meningsløse» data til virkelige data som lar deg ta objektive beslutninger er det eneste alternativet.

Menneskelige muligheter slutter der det er store mengder råinformasjon. Data mining-systemer mister sin nytte der det kreves for å se, forstå og føle informasjon.

Rimelig fordeling av funksjoner og objektivitet

Mann og datamaskin skal utfylle hverandre - dette er et aksiom. Å skrive en avhandling er en prioritet for en person, og et informasjonssystem er en hjelp. Her er dataene som Data Mining-teknologien har heuristikk, regler, algoritmer.

Å utarbeide en ukentlig værmelding er prioritet i informasjonssystemet. Mennesket forv alter dataene, men baserer sine beslutninger på resultatene av systemets beregninger. Den kombinerer datautvinningsmetoder, spesialistdataklassifisering, manuell kontroll av bruken av algoritmer, automatisk sammenligning av tidligere data, matematiske prognoser og mye kunnskap og ferdigheter til virkelige personer involvert i bruken av informasjonssystemet.

Mann og datamaskin
Mann og datamaskin

Sannsynlighetsteori og matematisk statistikk er ikke de mest "favoritt" og forståelige kunnskapsområdene. Mange spesialister er veldig langt unna dem, men metodene som er utviklet på disse områdene gir nesten 100 % korrekte resultater. Ved å bruke systemer basert på ideene, metodene og algoritmene til Data Mining, kan løsninger oppnås objektivt og pålitelig. Ellers er det rett og slett umulig å finne en løsning.

Faraoer og mysterier fra tidligere århundrer

Historien ble med jevne mellomrom skrevet om:

  • stater - av hensyn til deres strategiske interesser;
  • autoritative vitenskapsmenn - av hensyn til deres subjektive tro.

Det er vanskelig å si hva som er sant og hva som er usant. Bruken av Data Mining lar oss løse dette problemet. For eksempel ble teknologien for å bygge pyramider beskrevet av kronikere og studert av forskere i forskjellige århundrer. Ikke alt materiale kommer på Internett, ikke alt er unikt her, og mange data har kanskje ikke:

  • beskrevet tidspunkt;
  • tid for å skrive beskrivelsen;
  • datoer som beskrivelsen er basert på;
  • forfatter(e), meninger (lenker) tatt i betraktning;
  • bekreftelse av objektivitet.

Bbiblioteker, templer og "uventede steder" kan du finne manuskripter fra forskjellige århundrer og materielle bevis fra fortiden.

Interessant mål: å sette alt sammen og avdekke "sannheten". Funksjon ved problemet: informasjon kan fås fra den første beskrivelsen av en kroniker, i løpet av faraoenes levetid, til det nåværende århundre, der dette problemet løses med moderne metoder av mange forskere.

Begrunnelse for bruk av Data Mining: manuelt arbeid er ikke mulig. For mange mengder:

  • informasjonskilder;
  • representasjonsspråk;
  • forskere som beskriver det samme på forskjellige måter;
  • datoer, arrangementer og vilkår;
  • termkorrelasjonsproblemer;
  • analyse av statistikk etter datagrupper over tid kan variere osv.

På slutten av forrige århundre, da nok en fiasko av ideen om kunstig intelligens ble åpenbar ikke bare for lekmannen, men også for en sofistikert spesialist, dukket ideen opp: "å gjenskape personligheten."

For eksempel, i henhold til verkene til Pushkin, Gogol, Chekhov, dannes et visst system av regler, atferdslogikker og et informasjonssystem som kan svare på visse spørsmål slik en person ville: Pushkin, Gogol eller Tsjekhov. Teoretisk sett er en slik oppgave interessant, men i praksis er den ekstremt vanskelig å gjennomføre.

Ideen med en slik oppgave antyder imidlertid en veldig praktisk idé: "hvordan lage et intelligent informasjonssøk." Internett er mange utviklingsressurser, en enorm database og dette er en flott mulighet til å bruke Data Mining i kombinasjon med menneskeliglogikk i form av felles utvikling.

Maskin og mann sammen
Maskin og mann sammen

En maskin og en mann paret er en utmerket oppgave og en utvilsom suksess innen "informasjonsarkeologi", høykvalitets utgravninger i data og resultater som vil sette noe i tvil, men uten tvil vil tillate deg å få ny kunnskap og vil bli etterspurt i samfunnet.

Anbefalt: