Du har møtt dette konseptet mer enn én gang i livet ditt hvis du måtte jobbe med tekster. Spesielt kan du henvende deg til nettkalkulatorer som utfører nøyaktig frekvensanalysen av teksten. Disse praktiske verktøyene viser hvor mange ganger et bestemt tegn eller bokstav forekommer i en hvilken som helst tekst. Ofte vises også en prosentandel. Hvorfor er dette nødvendig? Hvordan bidrar frekvensanalyse av tekst til «cracking» av enkle chiffer? Hva er essensen, hvem oppfant det? Vi vil svare på disse og andre viktige spørsmål om emnet i løpet av artikkelen.
Definition
Frekvensanalyse er en av variantene av kryptoanalyse. Den er basert på forskeres antagelse om eksistensen av en statistisk ikke-triviell fordeling av individuelle tegn og deres vanlige sekvenser i både ren tekst og chiffertekst.
Det antas at en slik distribusjon, opp til utskifting av individuelle tegn, også vil bli bevart i krypterings-/dekrypteringsprosessene.
Prosesskarakteristikk
La oss nå ta en titt på frekvensanalyse på en enkel måte. Dette innebærer at antallet forekomster av samme alfabetiske karakter i tekster av tilstrekkelig lengde er det samme i forskjellige tekster skrevet på samme språk.
Og hva nå med monoalfabetisk kryptering? Det antas at hvis det er et tegn med en slik lik sannsynlighet for forekomst i avsnittet med chiffertekst, så er det realistisk å anta at det er den chifrerte bokstaven.
Følgere av frekvenstekstanalyse bruker samme resonnement på digrams (sekvenser av to bokstaver). Trigrammer – dette gjelder allerede polyalfabetiske siffer.
History of the method
Frekvensanalyse av ord er ikke et funn av modernitet. Det har vært kjent for den vitenskapelige verden siden 900-tallet. Opprettelsen er assosiert med navnet Al-Kindi.
Men de kjente tilfellene med anvendelse av metoden for frekvensanalyse tilhører en mye senere periode. Det mest slående eksemplet her er dechiffreringen av egyptiske hieroglyfer, produsert i 1822 av J.-F. Champollion.
Hvis vi går over til fiksjon, kan vi finne mange interessante referanser til denne dekrypteringsmetoden:
- Conan Doyle - "The Dancing Men".
- Jules Verne - "Children of Captain Grant".
- Edgar Poe - "Gold Bug".
Men siden midten av forrige århundre har de fleste algoritmene som brukes i kryptering blitt utviklet under hensyntagen til deres motstand mot slik frekvenskryptanalyse. Derfor deti dag brukes de oftest bare til opplæring av fremtidige kryptografer.
Grunnleggende metode
La oss nå presentere frekvensresponsanalysen i detalj. Denne typen analyse er direkte basert på det faktum at testen består av ord, og de på sin side av bokstaver. Antall bokstaver som fyller de nasjonale alfabetene er begrenset. Bokstaver kan enkelt listes opp her.
De viktigste egenskapene til en slik tekst vil være både repetisjon av bokstaver, ulike bigram, trigram og n-gram, samt kompatibilitet av ulike bokstaver med hverandre, veksling av konsonanter/vokaler og annet varianter av disse symbolene.
Hovedideen med metodene er å telle forekomster av mulige n-gram (angitt med nm) i klartekster lenge nok til analyse (angitt med T=t1t2…tl) sammensatt av bokstaver i det nasjonale alfabetet (angitt med {a1, a2, …, an}). Alt det ovennevnte forårsaker noen påfølgende m-gram av teksten:
t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.
Hvis dette er antall forekomster av m-gram ai1ai2…siktet i en bestemt tekst T, og L er det totale antallet m-gram analysert av forskeren, så er det mulig å fastslå empirisk at for tilstrekkelig stor L, vil frekvensene for et slikt m-gram være litt forskjellige fra hverandre.
Ofte forekommende bokstaver i det russiske alfabetet
Men tids-frekvensanalyse, til tross for det lignende navnet, har ingenting med samtaleemnet å gjøre. Denne typen analyser utføres forsignaler fra lavt observerbare radarstasjoner som bruker en spesiell wavelet-transformasjon.
La oss nå gå tilbake til hovedemnet. Når du utfører en frekvensanalyse, kan du finne ut hvilke bokstaver i det russiske alfabetet som oftest finnes i ganske omfangsrike tekster (prosent fra 0,062 til 0,018):
- A.
- V.
- D.
- F.
- I.
- K.
- M.
- O.
- R.
- T.
- F.
- T.
- Sh.
- b.
- E.
- I.
Selv en spesiell mnemonisk regel er innført, som hjelper til med å lære de vanligste bokstavene i det russiske alfabetet. For å gjøre dette er det nok å huske bare ett ord - "hayloft".
I vanlige tilfeller er frekvensen for bruk av bokstaver i prosent satt enkelt: Spesialisten teller hvor mange ganger bokstaven forekommer i teksten, og deler deretter den resulterende verdien med det totale antallet tegn i teksten. Og for å uttrykke denne verdien i prosent, er det nok å gange den med 100.
Det er viktig å tenke på at frekvensen ikke bare vil avhenge av volumet på teksten, men også av dens natur. For eksempel, i tekniske kilder vises bokstaven "F" mye oftere enn i fiksjon. Derfor, for objektive resultater, må en spesialist skrive tekster av forskjellig art og stil for forskning.
Bi-, tri-, fire-grams
I meningsfulle tekster kan du også finne de vanligste (henholdsvis mestgjentatte) kombinasjoner av to eller flere bokstaver. Spesialister har også satt sammen flere tabeller som angir frekvensene til lignende digrams av forskjellige alfabeter.
Når det gjelder russisk, gjorde frekvensanalysen av systemer med voluminøse meningsfulle tekster det mulig å etablere de vanligste bigrammene og trigrammene:
- NO.
- ST.
- MEN.
- NOT.
- ON.
- RA.
- OV.
- KO.
- VO.
- STO.
- NEW
- ENO.
- TOV.
- OVA.
- OVO.
Foretrukket forhold mellom bokstaver til hverandre
Og dette er ikke alle mulighetene frekvensanalyse kan gi tekstforskere. Ved å systematisere informasjon fra lignende tabeller over bigram og trigram, er det mulig å trekke ut data om de vanligste kombinasjonene av bokstaver. Eller, med andre ord, deres foretrukne forhold til hverandre.
En slik omfattende studie er allerede utført av eksperter. Resultatet var en tabell der naboene ble angitt sammen med hver bokstav i alfabetet. Dessuten de karakterene som ofte finnes både rett før og etter det. Bokstavene i tabellen er ikke stavet tilfeldig. Nærmere symbolet er de hyppigste naboene angitt, videre - mer sjeldne.
Tenk på eksempler:
- Brastaven "A". Følgende foretrukne forbindelser skilles her: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Herfra ser vi at det oftest før "A" i tekstene står "H" ("NA"). Og etter "A" oftest i tekster på russisk kan vi møte "L"("AL").
- Brev "M". Eksperter har identifisert slike foretrukne forbindelser: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
- Bokstaven "b". Foretrukne tilkoblinger er som følger: "n-s-t-l-b-n-k-v-p-s-e-o-i".
- Brevet "Sh". Foretrukket tilkobling: "e-b-a-i-u-Sch-e-i-a".
- Bokstaven "P". Foretrukne forbindelser med dette symbolet på det russiske alfabetet: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
Hva definerer analyse?
Moderne frekvenstekstanalyseprogrammer hjelper til med å studere store volumer av en rekke artikler, essays, passasjer og så videre. Følgende informasjon er gitt til forskeren som standard:
- Tot alt antall tegn i teksten.
- Antall mellomrom brukt av forfatteren.
- Antall sifre.
- Informasjon om brukte skilletegn - punktum, komma osv.
- Antallet bokstaver i hvert av de tilgjengelige alfabetene – kyrillisk, latin, osv.
- Informasjon om bruksfrekvensen for hver bokstav og symbol i teksten - antall omtaler og prosentandel sammenlignet med hele teksten.
Kamp mot overoptimalisering og overmetning
Hvorfor utføres tekstfrekvensanalyse? Er det bare for nysgjerrighetens formål - å finne ut hvilke tegn i den skrevne teksten som viste seg å være ofte påtruffet? Nei, hovedanvendelsen av analyse er praktisk, og den ligger andre steder.
N-gram inkluderer ikke bare stabile bigrammer og trigrammer. Til det sammekategorier inkluderer nøkkelord (tags), samlokaliseringer. Det vil si stabile kombinasjoner som består av to eller flere ord. De utmerker seg ved at slike komposisjoner forekommer sammen i teksten og samtidig bærer en viss semantisk belastning.
Dette spiller i hendene på skruppelløse SEO-spesialister. I sitt arbeid misbruker de noen ganger gjentakelsen av tagger og nøkkelord i teksten for å kunstig øke relevansen til en bestemt nettside. De prøver å lure systemet med et slikt "triks": å gjøre en naturlig kombinasjon med den vanlige kombinasjonen av ord, tradisjonell for det russiske språket ("kjøp en minkfrakk") til en inkonsekvent. Det vil si oppnådd ved å omorganisere ord i et så naturlig N-gram ("kjøp en minkfrakk").
Men i dag har søkealgoritmer lært seg å oppdage overoptimalisering like effektivt som overspam – overmetning av tekst med nøkkelord, tagger som påvirker rangeringen av resultater på søkesiden. Overoptimaliserte sider er nå tvert imot rangert lavere etter brukerens søk. Og folk selv har ikke en tendens til å lese meningsløst, overmettet med tags-tekst, og foretrekker nyttig informasjon på en annen ressurs.
Hjelper privat analyse for SEO-spesialister
Derfor gir moderne søkemotortekstfiltre i dag preferanse til de Internett-sidene, hvor informasjonen ikke bare er lett å lese, men også nyttig for besøkende. For å optimalisere arbeidet for nye standarder, SEO-spesialisterog gå til frekvensanalysen av teksten. Mange populære tjenester tilbyr det i dag.
Frekvensanalyse hjelper til med å vurdere teksten som forberedes for publisering for informativitet. Eliminer unødvendig redundans av tagger og nøkkelsetninger. Den lar deg også trekke forfatterens oppmerksomhet til unaturlige kombinasjoner av ord som vekker mistanke i tekstfiltrene til søkemotorer.
Frekvensanalyse av teksten er dermed med på å bestemme frekvensen av omtale av en bestemt karakter i kilden. Metoden brukes i dag for å vurdere tekstoverbelastning med tagger, unaturlige permutasjoner av ord.