Mitä on korpuslingvistiikka?

Sisällysluettelo:

Mitä on korpuslingvistiikka?
Mitä on korpuslingvistiikka?
Anonim

Useita vuosikymmeniä sitten tiedemiehet saattoivat vain haaveilla kielellisen tutkimuksen automatisoimisesta. Työ tehtiin käsin, siihen osallistui suuri joukko opiskelijoita, "huolimattomuuden" todennäköisyys oli merkittävä, ja mikä tärkeintä, kaikki vei paljon, paljon aikaa.

Tietokonetekniikan kehityksen myötä tutkimuksen tekeminen on tullut mahdolliseksi paljon nopeammin, ja nykyään yksi lupaavista kielentutkimuksen alueista on korpuslingvistiikka. Sen pääominaisuus on suurten tekstimuotoisten tietomäärien käyttö, jotka on koottu yhteen tietokantaan, merkitty erityisellä tavalla ja nimeltään korpus.

Nykyään on olemassa monia erilaisiin tarkoituksiin luotuja, eri kielimateriaaliin perustuvia korpuja, jotka kattavat miljoonista kymmeniin miljardeihin leksikaalisia yksiköitä. Tämä suunta on tunnustettu lupaavaksi ja osoittaa merkittävää edistystä sovellettavien ja tutkimustavoitteiden saavuttamisessa. Ammattilaiset, tavalla tai toisella tekemisissäluonnollinen kieli, on suositeltavaa perehtyä tekstikorpoihin vähintään perustasolla.

Korpuslingvistiikan historia

Tämän suunnan muodostuminen liittyy Brown Corpsin luomiseen Yhdysv altoihin viime vuosisadan 60-luvun alussa. Tekstikokoelma koostui vain miljoonasta sanamuodosta, ja nykyään tällaisen volyymin korpus olisi täysin kilpailukyvytön. Tämä johtuu suurelta osin tietotekniikan kehitysvauhdista sekä uusien tutkimusresurssien kasvavasta kysynnästä.

Korpuslingvistiikasta muodostui 90-luvulla täysiv altainen ja itsenäinen tieteenala, tekstikokoelmia koottiin ja merkittiin useille kymmenille kielille. Tänä aikana esimerkiksi British National Corpus luotiin 100 miljoonalle sanalle.

korpuslingvistiikassa
korpuslingvistiikassa

Tämän kielitieteen suunnan kehittyessä tekstien määrä kasvaa (ja saavuttaa miljardeja sanastoyksiköitä) ja merkintä monipuolistuu. Nykyään Internet-avaruudesta löydät kirjallisen ja suullisen puheen, monikielisen ja opetuksellisen, kaunokirjallisuuteen tai akateemiseen kirjallisuuteen keskittyviä kokonaisuuksia sekä monia muita lajikkeita.

Mitä tapauksia on olemassa

Korpuslingvistiikassa korpustyyppejä voidaan esittää monella tavalla. On intuitiivisesti selvää, että luokitteluperusteena voi olla tekstien kieli (venäjä, saksa), pääsytapa (avoin lähdekoodi, suljettu lähdekoodi, kaupallinen), lähdemateriaalin genre (fiktio).kirjallisuus, dokumentti, akateeminen, journalismi).

korpuslingvistiikan menetelmät
korpuslingvistiikan menetelmät

Mielenkiintoisella tavalla toteutetaan suullista puhetta edustavien materiaalien generointi. Koska tällaisen puheen tahallinen tallentaminen loisi vastaajille keinotekoiset olosuhteet, eikä tuloksena olevaa materiaalia voitaisi kutsua "spontaaniksi", moderni korpuslingvistiikka meni toisin päin. Vapaaehtoinen on varustettu mikrofonilla, ja päivän aikana kaikki keskustelut, joihin hän osallistuu, nauhoitetaan. Ympäröivät ihmiset eivät tietenkään voi tietää, että he osallistuvat jokapäiväisessä keskustelussa tieteen kehitykseen.

Myöhemmin vastaanotetut äänitallenteet tallennetaan tietopankkiin ja niihin liitetään tulostettu teksti, kuten transkriptio. Tällä tavalla puhutun jokapäiväisen puheen rungon luomiseen tarvittava merkintä tulee mahdolliseksi.

Hakemus

Jos on mahdollista käyttää kieltä, on mahdollista käyttää myös tekstikorpuksia. Korpusmenetelmien käyttötarkoitus kielitieteessä voi olla:

  • Luo tunneohjelmia, joita käytetään laajasti politiikassa ja liike-elämässä äänestäjien ja asiakkaiden positiivisen ja negatiivisen palautteen seuraamiseksi.
  • Tietojärjestelmän yhdistäminen sanakirjoihin ja kääntäjiin niiden suorituskyvyn parantamiseksi.
  • Erilaisia tutkimustehtäviä, jotka auttavat ymmärtämään kielen rakennetta, sen kehityshistoriaa ja ennusteita sen muuttumisesta lähitulevaisuudessa.
  • Tiedonottojärjestelmien kehittäminen, jotka perustuvat morfologisiin,syntaktiset, semanttiset ja muut ominaisuudet.
  • Erilaisten kielijärjestelmien työn optimointi jne.

Kuorien käyttäminen

Resurssikäyttöliittymä on samanlainen kuin tyypillinen hakukone, ja se kehottaa käyttäjää syöttämään sanan tai sanayhdistelmän tehdäkseen hakuja tietokannasta. Tarkan pyyntölomakkeen lisäksi voit käyttää laajennettua versiota, jonka avulla voit löytää tekstimuotoista tietoa lähes kaikilla kielellisillä kriteereillä.

tietokone- ja korpuslingvistiikka
tietokone- ja korpuslingvistiikka

Haun perusteena voi olla:

  • kuuluu tiettyyn puheenosien ryhmään;
  • kieliset ominaisuudet;
  • semantiikka;
  • tyylinen ja tunteellinen väritys.

Voit myös yhdistää hakuehtoja sanasarjalle: esimerkiksi etsi kaikki verbin esiintymät nykymuodossa, ensimmäisessä persoonassa, yksikössä, jota seuraa prepositio "in" ja substantiivi akkusatiivissa. Näin yksinkertaisen tehtävän ratkaiseminen vie käyttäjältä muutaman sekunnin ja vaatii vain muutaman hiiren napsautuksen annetuissa kentissä.

Luontiprosessi

Haku voidaan suorittaa sekä kaikissa alikorpusissa että yhdessä, erityisesti valitussa, riippuen tarpeista tietyn tavoitteen saavuttamiseksi:

  1. Ensinnäkin selvitetään, mitkä tekstit muodostavat rungon perustan. Käytännön tarkoituksiin käytetään usein journalistisia, sanomalehtimateriaaleja, Internet-kommentteja. Tutkimusprojekteissa enitenerilaisia korpuja, mutta tekstit on valittava jollain yhteisellä pohjalla.
  2. Tuloksena oleva tekstijoukko esikäsitellään, mahdolliset virheet korjataan, tekstistä laaditaan bibliografinen ja ekstralingvistinen kuvaus.
  3. Kaikki ei-tekstuaalinen tieto suodatetaan pois: grafiikka, kuvat, taulukot poistetaan.
  4. Tokenit, yleensä sanat, varataan jatkokäsittelyä varten.
  5. Lopuksi suoritetaan tuloksena olevan elementtijoukon morfologinen, syntaktinen ja muu merkintä.

Kaikkien suoritettujen operaatioiden tulos on syntaktinen rakenne, jonka päälle on jaettu joukko elementtejä, joille jokaiselle määritellään puheen osa, kieliopilliset ja joissain tapauksissa semanttiset ominaisuudet.

Vaikeudet tapausten luomisessa

On tärkeää ymmärtää, että rungon saamiseksi ei riitä, että kootaan paljon sanoja tai lauseita. Toisa alta tekstikokoelman on oltava tasapainossa, eli esitettävä erityyppisiä tekstejä tietyissä suhteissa. Toisa alta kotelon sisältö on merkittävä erityisellä tavalla.

Zakharov-korpuslingvistiikka
Zakharov-korpuslingvistiikka

Ensimmäinen asia ratkaistaan sopimuksen mukaan: esimerkiksi kokoelmaan kuuluu 60 % kaunokirjallisuutta, 20 % dokumentteja, tietty osuus annetaan suullisen puheen kirjalliselle esitykselle, säädöksille, tieteellisille kirjoituksille jne.. Ihanteellista reseptiä tasapainoiselle korpukselle ei nykyään ole olemassa.

Toinen kysymys sisällön merkinnästä on vaikeampi ratkaista. Tekstien automaattiseen merkitsemiseen käytetään erityisiä ohjelmia ja algoritmeja, mutta ne eivät anna 100% tulosta, voivat aiheuttaa virheitä ja vaativat manuaalista tarkennusta. Mahdollisuudet ja ongelmat tämän ongelman ratkaisemisessa on kuvattu yksityiskohtaisesti V. P. Zakharovin teoksessa korpuslingvistiikasta.

Tekstimerkinnät tehdään useilla tasoilla, jotka luetellaan alla.

Morfologinen merkintä

Muistamme koulun penkistä, että venäjän kielessä on erilaisia puheosia, ja jokaisella niistä on omat ominaisuutensa. Esimerkiksi verbillä on mieliala- ja aikaluokkia, joita substantiivilla ei ole. Äidinpuhuja kieltäytyy epäröimättä substantiivista ja konjugoi verbejä, mutta käsityö ei sovellu merkitsemään 100 miljoonan sanan käyttökorpusta. Kaikki tarvittavat toiminnot voidaan suorittaa tietokoneella, mutta tätä varten se on opetettava.

Morfologinen merkintä on tarpeen, jotta tietokone "ymmärtää" jokaisen sanan osana puhetta, jolla on tiettyjä kieliopillisia piirteitä. Koska useat säännölliset säännöt toimivat venäjällä (kuten missä tahansa muussakin) kielessä, on mahdollista rakentaa automaattinen menettely morfologiseen analyysiin laittamalla koneeseen useita algoritmeja. Sääntöön on kuitenkin poikkeuksia sekä useita vaikeuttavia tekijöitä. Tämän seurauksena puhdas tietokoneanalyysi on nykyään kaukana ihanteellisuudesta, ja jopa 4 % virheistä antaa 4 miljoonan sanan arvon 100 miljoonan yksikön aineistossa, mikä vaatii manuaalista tarkennusta.

Tämä ongelma on kuvattu yksityiskohtaisesti V. P. Zakharovin kirjassa "Corpus Linguistics".

Syntaktinen merkintä

Syntaktinen analyysi tai jäsentäminen on menettely, joka määrittää sanojen suhteen lauseessa. Algoritmijoukon avulla on mahdollista määrittää tekstin aihe, predikaatti, lisäykset ja erilaiset puhekäänteet. Selvittämällä, mitkä sekvenssin sanat ovat pääasiallisia ja mitkä riippuvia, voimme tehokkaasti poimia tietoa tekstistä ja kouluttaa koneen palauttamaan vain ne tiedot, joista olemme kiinnostuneita vastauksena hakupyyntöön.

korpuslingvistiikan laboratoriot Venäjän yliopistoissa
korpuslingvistiikan laboratoriot Venäjän yliopistoissa

Muuten, nykyaikaiset hakukoneet käyttävät tätä antamaan tiettyjä numeroita pitkien tekstien sijaan vastauksena asiaankuuluviin kyselyihin, kuten "kuinka monta kaloria on omenassa" tai "etäisyys Moskovasta Pietariin". Ymmärtääksesi kuvatun prosessin perusasiat, sinun on kuitenkin tutustuttava "Johdatus korpuslingvistiikkaan" tai muuhun perusoppikirjaan.

Semanttinen merkintä

Sanan semantiikka on yksinkertaisesti sanottuna sen merkitys. Laaj alti sovellettava lähestymistapa semanttisessa analyysissä on tagien antaminen sanalle, mikä kuvastaa sen kuulumista semanttisten kategorioiden ja alakategorioiden joukkoon. Tällainen tieto on arvokasta tekstin tunteiden analysointialgoritmien optimoinnissa, automaattisessa viittauksessa ja muiden tehtävien suorittamisessa korpuslingvististen menetelmien avulla.

Puussa on useita "juuria", jotka ovat abstrakteja sanoja, joilla onerittäin laaja semantiikka. Tämän puun haarautuessa muodostuu solmuja, jotka sisältävät yhä tarkempia leksikaalisia elementtejä. Esimerkiksi sana "olento" voidaan yhdistää sellaisiin käsitteisiin kuin "ihminen" ja "eläin". Ensimmäinen sana haarautuu edelleen erilaisiin ammatteihin, sukulaisuusehtoihin, kansallisuuteen ja toinen - luokkiin ja eläintyyppeihin.

Tiedonhakujärjestelmien käyttö

Korpuslingvistiikan käyttöalueet kattavat monenlaisia toiminta-aloja. Corporaa käytetään sanakirjojen kokoamiseen ja korjaamiseen, automaattisten käännösjärjestelmien luomiseen, yhteenvetojen tekemiseen, faktojen poimimiseen, mielialan määrittämiseen ja muuhun tekstinkäsittelyyn.

korpuslingvistiikan korpustyypit
korpuslingvistiikan korpustyypit

Lisäksi tällaisia resursseja käytetään aktiivisesti maailman kielten ja koko kielen toimintamekanismien tutkimuksessa. Pääsy suuriin määriin valmiiksi valmisteltua tietoa edesauttaa nopeaa ja kattavaa tutkimusta kielten kehityksen suuntauksista, neologismien ja vakaiden puhekäänteiden muodostumisesta, leksikaalisten yksiköiden merkityksen muutoksista jne.

Koska näin suurten tietomäärien käsittely vaatii automatisointia, tietokone- ja korpuslingvistiikan välillä on nykyään läheinen vuorovaikutus.

Venäjän kielen kansallinen korpus

Tämä korpus (lyhennettynä NKRC) sisältää useita alikorpuksia, joiden avulla resurssia voidaan käyttää monenlaisten tehtävien ratkaisemiseen.

NCRA-tietokannan materiaalit on jaettu:

  • julkaisuista 90- ja 2000-luvun tiedotusvälineissävuotta, sekä kotimaassa että ulkomailla;
  • suullisen puheen tallenteet;
  • aksentologisesti merkityt tekstit (eli aksenttimerkeillä);
  • murteinen puhe;
  • runolliset teokset;
  • materiaalit syntaktisilla merkinnöillä jne.

Tietojärjestelmä sisältää myös alikorpuksia, joissa on rinnakkaiskäännöksiä venäjästä englanniksi, saksaksi, ranskaksi ja moniin muihin kieliin (ja päinvastoin).

Lisäksi tietokannassa on osa historiallisia tekstejä, jotka edustavat venäjänkielistä kirjallista puhetta sen eri kehityskausien aikana. Siellä on myös koulutuskorpus, josta voi olla hyötyä ulkomaalaisille venäjän kielen hallitsemisessa.

Venäjän kielen kansallinen korpus sisältää 400 miljoonaa sanayksikköä ja on monella tapaa edellä merkittävää osaa eurooppalaisten kielten korpusista.

Näkymät

Tosiasia, että tämän alueen tunnustaminen lupaavaksi on, on korpuslingvististen laboratorioiden olemassaolo venäläisissä yliopistoissa ja myös ulkomaisissa yliopistoissa. Tarkasteltavien tiedonhakuresurssien puitteissa käytettyyn ja tutkimukseen liittyy joidenkin korkean teknologian, kysymys-vastausjärjestelmien alan alueiden kehittäminen, mutta tästä keskusteltiin edellä.

korpuskielitieteen historiaa
korpuskielitieteen historiaa

Korpuslingvistiikan jatkokehitystä ennustetaan kaikilla tasoilla, teknisestä, uusien algoritmien käyttöönotossa, jotka optimoivat tiedonhaku- ja -käsittelyprosesseja, laajentavat tietokoneiden ominaisuuksia, lisäävät toiminnallisuutta.muisti, ja päättyy kotitalouksiin, kun käyttäjät löytävät yhä enemmän tapoja käyttää tämäntyyppisiä resursseja jokapäiväisessä elämässä ja työssä.

Lopuksi

Viime vuosisadan puolivälissä 2017 tuntui kaukaiselta tulevaisuudelta, jossa avaruusalukset surffailevat universumin avaruudessa ja robotit tekevät kaiken työn ihmisten puolesta. Todellisuudessa tiede on kuitenkin täynnä "tyhjiä kohtia", ja se yrittää epätoivoisesti vastata kysymyksiin, jotka ovat vaivanneet ihmiskuntaa vuosisatojen ajan. Kysymykset kielen toimivuudesta ovat täällä etusijalla, ja niihin voi vastata korpus- ja laskennallinen lingvistiikka.

Suuria tietomääriä käsittelemällä voit havaita kuvioita, joihin ei aiemmin ollut pääsyä, ennustaa tiettyjen kielen ominaisuuksien kehittymistä, seurata sanojen muodostumista lähes reaaliajassa.

Käytännön globaalilla tasolla corporeja voidaan pitää esimerkiksi mahdollisena työkaluna julkisen mielipiteen arvioinnissa - Internet on jatkuvasti päivittyvä tietokanta erilaisista todellisten käyttäjien luomista teksteistä: nämä ovat kommentteja, arvosteluja, artikkeleita., ja monet muut puhemuodot.

Lisäksi yhteistyö corporien kanssa edistää samojen teknisten keinojen kehittämistä, jotka liittyvät tiedonhakuun, jotka ovat meille tuttuja Googlen tai Yandexin palveluista, konekäännöksistä, sähköisistä sanakirjoista.

Voi sanoa, että korpuslingvistiikka ottaa vasta ensimmäisiä askeleita ja kehittyy nopeasti lähitulevaisuudessa.

Suositeltava: