For flere tiår siden kunne forskere bare drømme om å automatisere språkforskning. Arbeidet ble utført for hånd, et stort antall studenter var involvert i det, det var en betydelig sannsynlighet for en "uoppmerksomhet" feil, og viktigst av alt, det hele tok mye, mye tid.
Med utviklingen av datateknologi ble det mulig å forske mye raskere, og i dag er et av de lovende områdene innen språkstudiet korpuslingvistikk. Hovedtrekket er bruken av store mengder tekstinformasjon, konsolidert i en enkelt database, merket opp på en spesiell måte og k alt et korpus.
I dag er det mange korpus laget for forskjellige formål, basert på forskjellig språkmateriale, som dekker fra millioner til titalls milliarder leksikale enheter. Denne retningen er anerkjent som lovende og viser betydelig fremgang i å oppnå anvendte og forskningsmessige mål. Fagfolk, på en eller annen måte håndterenaturlig språk, anbefales det at du gjør deg kjent med tekstkorpus minst på et grunnleggende nivå.
Korpuslingvistikkens historie
Dannelsen av denne retningen er forbundet med opprettelsen av Brown Corps i USA på begynnelsen av 60-tallet av forrige århundre. Tekstsamlingen besto av bare 1 million ordformer, og i dag ville et korpus av et slikt volum være fullstendig lite konkurransedyktig. Dette skyldes i stor grad utviklingstakten innen datateknologi, samt den økende etterspørselen etter nye forskningsressurser.
På 90-tallet ble korpuslingvistikk formet til en fullverdig og selvstendig disiplin, tekstsamlinger ble satt sammen og markert for flere titalls språk. I løpet av denne perioden ble for eksempel British National Corpus opprettet for 100 millioner ordbruk.
Når denne retningen av lingvistikk utvikler seg, blir volumet av tekster større (og når milliarder av vokabularenheter), og markeringen blir mer og mer mangfoldig. I dag, på Internett, kan du finne korpus av skriftlig og muntlig tale, flerspråklig og pedagogisk, med fokus på skjønnlitteratur eller akademisk litteratur, samt mange andre varianter.
Hvilke saker er det
Korpustyper i korpuslingvistikk kan representeres på flere måter. Det er intuitivt klart at grunnlaget for klassifisering kan være språket til tekstene (russisk, tysk), tilgangsmodus (åpen kildekode, lukket kilde, kommersiell), sjangeren til kildematerialet (fiksjon).litteratur, dokumentar, akademisk, journalistikk).
På en interessant måte utføres generering av materialer som representerer muntlig tale. Siden bevisst opptak av slik tale ville skape kunstige forhold for respondentene, og det resulterende materialet ikke kunne kalles «spontant», gikk moderne korpuslingvistikk den andre veien. Den frivillige er utstyrt med mikrofon, og på dagtid tas alle samtaler han deltar i. Menneskene rundt kan selvfølgelig ikke vite at de i løpet av en hverdagssamtale bidrar til utviklingen av vitenskapen.
Senere lagres de mottatte lydopptakene i databanken og ledsages av trykt tekst som en utskrift. På denne måten blir markeringen som trengs for å lage et korpus av muntlig dagligtale mulig.
Application
Der det er mulig å bruke språk, er det også mulig å bruke tekstkorpus. Hensikten med å bruke korpusmetoder i lingvistikk kan være:
- Opprette sentimentprogrammer som er mye brukt i politikk og næringsliv for å spore positive og negative tilbakemeldinger fra henholdsvis velgere og kunder.
- Koble informasjonssystemet til ordbøker og oversettere for å forbedre ytelsen deres.
- Ulike forskningsoppgaver som bidrar til forståelsen av språkets struktur, historien om dets utvikling og spådommer om dets endring i nær fremtid.
- Utvikling av informasjonsekstraksjonssystemer basert på morfologiske,syntaktiske, semantiske og andre funksjoner.
- Optimalisering av arbeidet til ulike språklige systemer osv.
Using shells
Ressursgrensesnittet ligner på en typisk søkemotor og ber brukeren om å skrive inn et ord eller en kombinasjon av ord for å søke i infobasen. I tillegg til det eksakte forespørselsskjemaet kan du bruke den utvidede versjonen, som lar deg finne tekstinformasjon etter nesten alle språklige kriterier.
Grunnlaget for søket kan være:
- tilhøre en bestemt gruppe orddeler;
- grammatiske funksjoner;
- semantikk;
- stilistisk og emosjonell fargelegging.
Du kan også kombinere søkekriterier for en ordsekvens: finn for eksempel alle forekomster av et verb i presens, første person, entall etterfulgt av preposisjonen "in" og et substantiv i akkusativ. Å løse en så enkel oppgave tar brukeren noen sekunder og krever bare noen få museklikk i de gitte feltene.
Opprettingsprosess
Selve søket kan utføres både i alle underkorpuser, og i ett, spesifikt utvalgt, avhengig av behov for å oppnå et spesifikt mål:
- Først avgjøres det hvilke tekster som skal danne grunnlaget for korpuset. For praktiske formål brukes ofte journalistisk, avismateriell, internettkommentarer. I forskningsprosjekter, de flesteulike typer korpus, men tekstene må velges på et felles grunnlag.
- Det resulterende settet med tekster er forhåndsbehandlet, eventuelle feil blir rettet, en bibliografisk og ekstraspråklig beskrivelse av teksten utarbeides.
- All ikke-tekstlig informasjon blir filtrert ut: grafikk, bilder, tabeller blir slettet.
- Tokens, vanligvis ord, tildeles for videre behandling.
- Til slutt utføres morfologisk, syntaktisk og annen markering av det resulterende settet med elementer.
Resultatet av alle utførte operasjoner er en syntaktisk struktur med et sett med elementer fordelt over seg, for hver av disse er en del av tale, grammatiske og, i noen tilfeller, semantiske egenskaper definert.
Vanskeligheter med å opprette saker
Det er viktig å forstå at for å få et korpus er det ikke nok å sette sammen mange ord eller setninger. På den ene siden må en tekstsamling balanseres, det vil si presentere ulike typer tekster i bestemte proporsjoner. På den annen side skal innholdet i saken merkes på en spesiell måte.
Det første problemet løses etter avtale: for eksempel omfatter samlingen 60 % av skjønnlitterære tekster, 20 % av dokumentarer, en viss andel gis til skriftlig presentasjon av muntlig tale, lovverk, vitenskapelige artikler, etc. Den ideelle oppskriften på et balansert korpus i dag finnes ikke.
Det andre spørsmålet angående innholdsmarkering er vanskeligere å løse. Det er spesielle programmer og algoritmer som brukes for automatisk markering av tekster, men de gir ikke 100 % resultat, kan forårsake feil og krever manuell foredling. Muligheter og problemer med å løse dette problemet er beskrevet i detalj i arbeidet til V. P. Zakharov om korpuslingvistikk.
Tekstmarkering utføres på flere nivåer, som vi vil liste opp nedenfor.
Morfologisk markup
Fra skolebenken husker vi at i det russiske språket er det ulike orddeler, og hver av dem har sine egne særtrekk. For eksempel har et verb kategorier av stemning og tid som et substantiv ikke har. En morsmålstaler avslår substantiver og bøyer verb uten å nøle, men manuelt arbeid er ikke egnet for å markere et korpus på 100 millioner ordbruk. Alle nødvendige operasjoner kan utføres av en datamaskin, men for dette må den læres.
Morfologisk markering er nødvendig for at datamaskinen skal "forstå" hvert ord som en del av talen som har visse grammatiske egenskaper. Siden en rekke vanlige regler fungerer på russisk (som på alle andre) språk, er det mulig å bygge en automatisk prosedyre for morfologisk analyse ved å sette inn en rekke algoritmer i maskinen. Det finnes imidlertid unntak fra regelen, samt ulike kompliserende faktorer. Som et resultat er ren dataanalyse i dag langt fra ideell, og selv 4 % feil gir en verdi på 4 millioner ord i et korpus på 100 millioner enheter, noe som krever manuell foredling.
Dette problemet er beskrevet i detalj av V. P. Zakharovs bok "Corpus Linguistics".
Syntaktisk markup
Syntaktisk analyse eller parsing er en prosedyre som bestemmer forholdet mellom ord i en setning. Ved hjelp av et sett med algoritmer blir det mulig å bestemme emnet, predikatet, tilleggene og ulike talevendinger i teksten. Ved å finne ut hvilke ord i sekvensen som er hovedord og hvilke som er avhengige, kan vi effektivt trekke ut informasjon fra teksten og trene maskinen til kun å returnere informasjonen vi er interessert i som svar på en søkeforespørsel.
Forresten, moderne søkemotorer bruker dette til å gi spesifikke tall i stedet for lange tekster som svar på relevante spørsmål som: "hvor mange kalorier er det i et eple" eller "avstand fra Moskva til St. Petersburg". Men for å forstå selv det grunnleggende i den beskrevne prosessen, må du gjøre deg kjent med "Introduksjon til Corpus Linguistics" eller en annen grunnleggende lærebok.
Semantisk markering
Semantikken til et ord er, i enkle vendinger, dets betydning. En allment anvendelig tilnærming i semantisk analyse er å tilskrive koder til et ord, som gjenspeiler dets tilhørighet til et sett med semantiske kategorier og underkategorier. Slik informasjon er verdifull for å optimere tekstsentimentanalysealgoritmer, automatisk referanse og utføre andre oppgaver ved bruk av korpuslingvistiske metoder.
Det finnes en rekke "røtter" til treet, som er abstrakte ord som harveldig bred semantikk. Når dette treet forgrener seg, dannes det noder som inneholder flere og mer spesifikke leksikalske elementer. For eksempel kan ordet "skapning" assosieres med slike begreper som "menneske" og "dyr". Det første ordet vil fortsette å forgrene seg til forskjellige yrker, vilkår for slektskap, nasjonalitet, og det andre - i klasser og typer dyr.
Bruk av informasjonsinnhentingssystemer
Bruksområder for korpuslingvistikk dekker et bredt spekter av aktivitetsområder. Corpora brukes til å kompilere og korrigere ordbøker, lage automatiske oversettelsessystemer, oppsummere, trekke ut fakta, bestemme følelser og annen tekstbehandling.
I tillegg brukes slike ressurser aktivt i studiet av verdens språk og mekanismene for funksjonen til språket som helhet. Tilgang til store mengder forhåndsforberedt informasjon bidrar til rask og omfattende studie av trender i utviklingen av språk, dannelsen av neologismer og stabile talevendinger, endringer i betydningen av leksikale enheter osv.
Fordi arbeid med så store datamengder krever automatisering, er det i dag et nært samspill mellom data- og korpuslingvistikk.
Det russiske språkets nasjonalkorpus
Dette korpuset (forkortet til NKRC) inkluderer en rekke underkorpus som gjør det mulig å bruke ressursen til å løse en lang rekke oppgaver.
Materialer i NCRA-databasen er delt inn i:
- om publikasjoner i media på 90- og 2000-talletår, både innenlands og utenlands;
- opptak av muntlig tale;
- aksentologisk merkede tekster (dvs. med aksenttegn);
- dialekttale;
- poetiske verk;
- materialer med syntaktisk markering osv.
Informasjonssystemet inkluderer også underkorpus med parallelle oversettelser av verk fra russisk til engelsk, tysk, fransk og mange andre språk (og omvendt).
I tillegg har databasen en del av historiske tekster som representerer skriftlig tale på russisk i ulike perioder av utviklingen. Det finnes også et opplæringskorpus som kan være nyttig for utenlandske statsborgere i å mestre det russiske språket.
Det russiske språkets nasjonale korpus omfatter 400 millioner leksikale enheter og er på mange måter foran en betydelig del av korpusene av europeiske språk.
Prospekter
Et faktum til fordel for å anerkjenne dette området som lovende er tilstedeværelsen av korpuslingvistiske laboratorier ved russiske universiteter, så vel som i utenlandske. Med bruk og forskning innenfor rammen av de vurderte informasjonsinnhentingsressursene, er utvikling av enkelte områder innen høyteknologi, spørsmål-svar-systemer knyttet til, men dette ble diskutert ovenfor.
Videreutvikling av korpuslingvistikk er spådd på alle nivåer, fra teknisk, når det gjelder introduksjon av nye algoritmer som optimerer prosessene for søk og prosessering av informasjon, utvider kapasiteten til datamaskiner, øker den operasjonelleminne, og slutter med husholdninger, ettersom brukerne finner flere og flere måter å bruke denne typen ressurser på i hverdagen og på jobben.
Avslutningsvis
I midten av forrige århundre virket 2017 som en fjern fremtid, der romfartøy surfer på universets vidder og roboter gjør alt arbeidet for mennesker. I virkeligheten er imidlertid vitenskapen full av «blanke flekker» og gjør desperate forsøk på å svare på spørsmål som har plaget menneskeheten i århundrer. Spørsmål om språkets funksjon er en stor plass her, og korpus- og datalingvistikk kan hjelpe oss med å svare på dem.
Behandling av store datamengder lar deg oppdage mønstre som tidligere var utilgjengelige, forutsi utviklingen av visse språkfunksjoner, spore dannelsen av ord nesten i sanntid.
På et praktisk glob alt nivå kan korpus for eksempel betraktes som et potensielt verktøy for å vurdere offentlig sentiment – Internett er en kontinuerlig oppdatert database med ulike tekster laget av ekte brukere: disse er kommentarer, anmeldelser, artikler, og mange andre former for tale.
I tillegg bidrar arbeidet med korpus til utviklingen av de samme tekniske midlene som er involvert i informasjonsinnhenting, kjent for oss fra Google eller Yandex-tjenester, maskinoversettelse, elektroniske ordbøker.
Det er trygt å si at korpuslingvistikk bare tar sine første skritt og vil utvikle seg raskt i nær fremtid.