Tekstitaajuusanalyysi: ominaisuuksia ja esimerkkejä

Sisällysluettelo:

Tekstitaajuusanalyysi: ominaisuuksia ja esimerkkejä
Tekstitaajuusanalyysi: ominaisuuksia ja esimerkkejä
Anonim

Olet tavannut tämän käsitteen useammin kuin kerran elämässäsi, jos olet joutunut työskentelemään tekstien parissa. Erityisesti voit kääntyä online-laskimien puoleen, jotka suorittavat tarkalleen tekstin taajuusanalyysin. Nämä kätevät työkalut osoittavat, kuinka monta kertaa tietty merkki tai kirjain esiintyy missä tahansa tekstin kohdassa. Usein näytetään myös prosenttiosuus. Miksi tätä tarvitaan? Miten tekstin taajuusanalyysi edistää yksinkertaisten salausten "halkeilua"? Mikä on sen olemus, kuka sen keksi? Vastaamme näihin ja muihin aiheeseen liittyviin tärkeisiin kysymyksiin artikkelin aikana.

Määritelmä

Taajuusanalyysi on yksi kryptaanalyysin muodoista. Se perustuu tutkijoiden oletukseen yksittäisten merkkien ja niiden säännöllisten sekvenssien tilastollisesta ei-triviaalista jakaumasta sekä tavallisessa että salatussa tekstissä.

Uskotaan, että tällainen jakelu yksittäisten merkkien korvaamiseen asti säilyy myös salaus-/salauksenpurkuprosesseissa.

järjestelmien taajuusanalyysi
järjestelmien taajuusanalyysi

Prosessin ominaisuus

Katsotaan nyt taajuusanalyysiä yksinkertaisella tavalla. Tämä tarkoittaa, että riittävän pitkissä teksteissä esiintyvien saman aakkosmerkin esiintymien määrä on sama eri samalla kielellä kirjoitetuissa teksteissä.

Entäs nyt yksiaakkosellinen salaus? Oletetaan, että jos salatekstiä sisältävässä osiossa on merkki, jolla on niin samanlainen esiintymistodennäköisyys, on realistista olettaa, että se on se salattu kirjain.

Tekstianalyysin seuraajat soveltavat samaa päättelyä digrammeihin (kahden kirjaimen sekvenssit). Trigrammit - tämä koskee jo moniaakkosisia salauksia.

Menetelmän historia

Sanojen taajuusanalyysi ei ole nykyajan löytö. Se on ollut tiedemaailman tiedossa 800-luvulta lähtien. Sen luominen liittyy nimeen Al-Kindi.

Mutta tunnetut taajuusanalyysimenetelmän soveltamistapaukset kuuluvat paljon myöhemmälle ajanjaksolle. Silmiinpistävin esimerkki tästä on egyptiläisten hieroglyfien salakirjoitus, jonka J.-F. teki vuonna 1822. Champollion.

Jos käännymme fiktioon, voimme löytää monia mielenkiintoisia viittauksia tähän salauksenpurkumenetelmään:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne – "Kapteeni Grantin lapset".
  • Edgar Poe - "Gold Bug".

Viime vuosisadan puolivälistä lähtien useimmat salauksessa käytetyt algoritmit on kuitenkin kehitetty ottaen huomioon niiden kestävyys tällaiselle taajuuskryptausanalyysille. Siksi senykyään niitä käytetään useimmiten vain tulevien kryptografien kouluttamiseen.

tekstin taajuusanalyysi
tekstin taajuusanalyysi

Perusmenetelmä

Esitetään nyt taajuusvasteanalyysi yksityiskohtaisesti. Tällainen analyysi perustuu suoraan siihen, että testi koostuu sanoista ja ne puolestaan kirjaimista. Kansalliset aakkoset täyttävien kirjainten määrä on rajoitettu. Kirjaimet voidaan yksinkertaisesti luetella tähän.

Tällaisen tekstin tärkeimmät ominaisuudet ovat sekä kirjainten, erilaisten bigrammien, trigrammien ja n-grammien toisto, että eri kirjainten yhteensopivuus keskenään, konsonanttien/vokaalien vuorottelu ja muut näiden symbolien lajikkeet.

Menetelmien pääideana on laskea mahdollisten n-grammien esiintymät (merkitty nm:llä) riittävän pitkissä selkoteksteissä (merkitty T=t1t2…tl), jotka koostuvat kansallisten aakkosten kirjaimista (merkitty {a1, a2, …, an}). Kaikki yllä oleva aiheuttaa joitakin peräkkäisiä tekstin m-grammeja:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Jos tämä on m-gramman ai1ai2…aim esiintymien lukumäärä tietyssä tekstissä T ja L on tutkijan analysoimien m-grammien kokonaismäärä, voidaan empiirisesti todeta, että riittävän suuri L, tällaisen m-gramman taajuudet eroavat vähän toisistaan.

taajuusanalyysi
taajuusanalyysi

Usein esiintyvät venäjän aakkosten kirjaimet

Mutta aika-taajuusanalyysillä ei samank altaisesta nimestä huolimatta ole mitään tekemistä keskustelumme aiheen kanssa. Tällainen analyysi suoritetaansignaalit heikosti havaittavista tutka-asemilta käyttämällä erityistä aallokemuunnosta.

Nyt palataan pääaiheeseen. Kun suoritat taajuusanalyysin, voit selvittää, mitkä venäjän aakkosten kirjaimet löytyvät useimmiten melko laajoista teksteistä (prosenttiosuus 0,062 - 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

On otettu käyttöön myös erityinen muistisääntö, joka auttaa oppimaan venäjän aakkosten yleisimmät kirjaimet. Tätä varten riittää, että muistat vain yhden sanan - "heinävarasto".

Yleistapauksissa kirjainten käyttötiheys prosentteina asetetaan yksinkertaisesti: asiantuntija laskee, kuinka monta kertaa kirjain esiintyy tekstissä, ja jakaa sitten saadun arvon tekstin merkkien kokonaismäärällä. Ja tämän arvon ilmaisemiseksi prosentteina riittää kertomaan se 100:lla.

On tärkeää ottaa huomioon, että tiheys ei riipu pelkästään tekstin määrästä vaan myös sen luonteesta. Esimerkiksi teknisissä lähteissä kirjain "F" esiintyy paljon useammin kuin fiktiossa. Siksi objektiivisten tulosten saamiseksi asiantuntijan on kirjoitettava tutkimusta varten eri luonteisia ja tyylisiä tekstejä.

tekstitaajuusanalyysiohjelmat
tekstitaajuusanalyysiohjelmat

Bi-, tri-, neljä grammaa

Merkikkäistä teksteistä löytyy myös yleisimmät (vastaavasti enitentoistuvat) kahden tai useamman kirjaimen yhdistelmät. Asiantuntijat ovat myös koonneet useita taulukoita, jotka osoittavat eri aakkosten samank altaisten digrammien taajuudet.

Venäjän kielen os alta laajan merkityksellisen tekstin järjestelmien taajuusanalyysi mahdollisti yleisimmät bigrammit ja trigrammit:

  • FI.
  • ST.
  • MUTTA.
  • NOT.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • UUSI
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Kirjainten ensisijaiset suhteet toisiinsa

Eikä tässä ole kaikki mahdollisuudet, joita taajuusanalyysi voi tarjota tekstin tutkijoille. Systematisoimalla tietoa samank altaisista bigrammi- ja trigrammitaulukoista on mahdollista poimia tietoa yleisimmistä kirjainyhdistelmistä. Tai toisin sanoen heidän suosikkisuhteensa keskenään.

Näin laajan tutkimuksen asiantuntijat ovat jo tehneet. Sen tuloksena oli taulukko, jossa jokaisen aakkosten kirjaimen lisäksi oli merkitty sen naapurit. Lisäksi ne hahmot, jotka löytyvät usein sekä välittömästi ennen sitä että sen jälkeen. Taulukon kirjaimia ei ole kirjoitettu sattum alta. Lähempänä symbolia näkyvät yleisimmät naapurit, edelleen - harvinaisemmat.

Harkitse esimerkkejä:

  • Kirjain "A". Tässä erotetaan seuraavat edulliset yhteydet: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Tästä näemme, että useimmiten ennen "A" teksteissä on "H" ("NA"). Ja "A":n jälkeen useimmiten venäjänkielisissä teksteissä voimme tavata "L":n("AL").
  • M-kirjain. Asiantuntijat ovat tunnistaneet tällaiset ensisijaiset yhteydet: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • B-kirjain. Suositellut yhteydet ovat seuraavat: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Kirjain "Sh". Ensisijaiset yhteydet: "e-b-a-i-u-Sch-e-i-a".
  • P-kirjain. Suosituimmat yhteydet tähän venäjän aakkosten symboliin: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
aika-taajuus-analyysi
aika-taajuus-analyysi

Mikä määrittelee analyysin?

Nykyaikaiset taajuustekstianalyysiohjelmat auttavat tutkimaan suuria määriä monenlaisia artikkeleita, esseitä, kohtia ja niin edelleen. Seuraavat tiedot toimitetaan tutkijalle vakiona:

  • Tekstin merkkien kokonaismäärä.
  • Kirjoittajan käyttämien välilyöntien määrä.
  • numeroiden määrä.
  • Tietoja käytetyistä välimerkeistä - pisteet, pilkut jne.
  • Kirjainten lukumäärä kussakin käytettävissä olevassa aakkostossa - kyrilliset, latinalaiset jne.
  • Tietoa kunkin kirjaimen ja symbolin käyttötiheydestä tekstissä - mainintojen määrä ja prosenttiosuus verrattuna koko tekstiin.

Taistele ylioptimointia ja ylikyllästymistä vastaan

Miksi tekstin tiheysanalyysi suoritetaan? Onko se vain uteliaisuuden vuoksi - selvittääkseen, mitkä kirjoitetun tekstin hahmot osoittautuivat usein tavatuiksi? Ei, analyysin pääsovellus on käytännöllinen, ja se on muualla.

N-grammat eivät sisällä vain stabiileja bigrammeja ja trigrammeja. Samaanluokkiin kuuluvat avainsanat (tunnisteet), kollokaatiot. Eli vakaat yhdistelmät, jotka koostuvat kahdesta tai useammasta sanasta. Ne erottuvat siitä, että tällaiset sävellykset esiintyvät yhdessä tekstissä ja kantavat samalla tietyn semanttisen kuorman.

Tämä on häikäilemättömien SEO-asiantuntijoiden käsissä. Työssään he käyttävät toisinaan väärin tunnisteiden ja avainsanojen toistamista tekstissä lisätäkseen keinotekoisesti tietyn verkkosivun relevanssia. He yrittävät huijata järjestelmää sellaisella "tempulla": muuttamalla luonnollinen yhdistelmä tavanomaisella sanayhdistelmällä, joka on perinteinen venäjän kielelle ("osta minkkitakki") epäjohdonmukaiseksi. Eli saadaan järjestämällä sanoja uudelleen sellaiseen luonnolliseen N-grammaan ("osta minkkitakki").

Mutta nykyään hakualgoritmit ovat oppineet havaitsemaan ylioptimoinnin yhtä tehokkaasti kuin roskapostin – tekstin ylikyllästymisen avainsanoilla, tageilla, jotka vaikuttavat hakusivun tulosten sijoitukseen. Ylioptimoidut sivut päinvastoin ovat nyt alempana käyttäjän haun mukaan. Eikä ihmisillä itsellään ole taipumusta lukea merkityksetöntä, ylikyllästettyä tunnistetekstiä, vaan suosii hyödyllistä tietoa toisesta lähteestä.

taajuusanalyysimenetelmä
taajuusanalyysimenetelmä

Yksityinen analyysi SEO-asiantuntijoille

Näin ollen nykyaikaiset hakukoneiden tekstisuodattimet suosivat niitä Internet-sivuja, joiden tiedot eivät ole vain helppolukuisia, vaan myös hyödyllisiä vierailijoille. Optimoida työnsä uusien standardien SEO asiantuntijatja siirry tekstin taajuusanalyysiin. Monet suositut palvelut tarjoavat sen nykyään.

Taajuusanalyysi auttaa tarkistamaan julkaistavaksi valmisteltavaa tekstiä informatiivisuuden vuoksi. Poista tunnisteiden ja avainlauseiden tarpeeton redundanssi. Sen avulla voit myös kiinnittää kirjoittajan huomion epäluonnollisiin sanayhdistelmiin, jotka herättävät epäilyksiä hakukoneiden tekstisuodattimissa.

taajuusvasteen analyysi
taajuusvasteen analyysi

Tekstin frekvenssianalyysi auttaa siten määrittämään, kuinka usein tietty merkki mainitaan lähteessä. Menetelmää käytetään nykyään arvioimaan tekstin ylikuormitusta tageilla, sanan luonnottomilla permutaatioilla.

Suositeltava: