Frekvencijska analiza teksta: karakteristike i primjeri

Sadržaj:

Frekvencijska analiza teksta: karakteristike i primjeri
Frekvencijska analiza teksta: karakteristike i primjeri
Anonim

S ovim konceptom ste se susreli više puta u životu ako ste morali da radite sa tekstovima. Konkretno, možete se obratiti online kalkulatorima koji vrše upravo analizu frekvencije teksta. Ovi praktični alati pokazuju koliko se puta određeni znak ili slovo pojavljuje u bilo kojem odlomku teksta. Često je prikazan i procenat. Zašto je ovo potrebno? Kako frekvencijska analiza teksta doprinosi "pucanju" jednostavnih šifri? Šta je njegova suština, ko ju je izmislio? Odgovorićemo na ova i druga važna pitanja o ovoj temi u toku članka.

Definicija

Analiza frekvencije je jedna od varijanti kriptoanalize. Zasniva se na pretpostavci naučnika o postojanju statističke netrivijalne distribucije pojedinačnih znakova i njihovih pravilnih sekvenci kako u običnom tako iu šifriranom tekstu.

Vjeruje se da će takva distribucija, sve do zamjene pojedinačnih znakova, biti sačuvana iu procesima šifriranja/dešifriranja.

frekvencijska analiza sistema
frekvencijska analiza sistema

Procesna karakteristika

Sada pogledajmo analizu frekvencija jednostavnim riječima. To implicira da je broj pojavljivanja istog abecednog znaka u tekstovima dovoljne dužine isti u različitim tekstovima napisanim na istom jeziku.

A sada šta je sa monoalfabetskom enkripcijom? Pretpostavlja se da ako postoji znak sa tako sličnom vjerovatnoćom pojavljivanja u dijelu sa šifriranim tekstom, onda je realno pretpostaviti da je to to šifrirano slovo.

Sljedbenici analize frekvencije teksta primjenjuju isto razmišljanje na digrame (nizove od dva slova). Trigrami - ovo je za slučaj već polialfabetskih šifri.

Istorija metode

Analiza frekvencije riječi nije otkriće modernosti. Naučnom svetu je poznat od 9. veka. Njegovo stvaranje je povezano sa imenom Al-Kindi.

Ali poznati slučajevi primjene metode frekvencijske analize pripadaju mnogo kasnijem periodu. Najupečatljiviji primjer ovdje je dešifriranje egipatskih hijeroglifa, koje je 1822. proizveo J.-F. Champollion.

Ako se okrenemo fikciji, možemo pronaći mnoge zanimljive reference na ovu metodu dešifriranja:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Djeca kapetana Granta".
  • Edgar Poe - "Gold Bug".

Međutim, od sredine prošlog stoljeća, većina algoritama koji se koriste u enkripciji je razvijena uzimajući u obzir njihovu otpornost na takvu frekvencijsku kriptoanalizu. Stoga jedanas se najčešće koriste samo za obuku budućih kriptografa.

analiza frekvencije teksta
analiza frekvencije teksta

Osnovna metoda

Ajmo sada detaljno predstaviti analizu frekvencijskog odziva. Ova vrsta analize direktno se zasniva na činjenici da se test sastoji od riječi, a one, pak, od slova. Broj slova koja ispunjavaju nacionalna pisma je ograničen. Pisma se jednostavno mogu navesti ovdje.

Najvažnije karakteristike takvog teksta bit će i ponavljanje slova, raznih bigrama, trigrama i n-grama, kao i kompatibilnost raznih slova međusobno, izmjena suglasnika/samoglasnika i dr. varijeteti ovih simbola.

Glavna ideja metoda je da broje pojavljivanja mogućih n-grama (označenih sa nm) u otvorenim tekstovima dovoljno dugim za analizu (označeno sa T=t1t2…tl) sastavljenim od slova nacionalne abecede (označeno sa {a1, a2, …, an}). Sve gore navedeno uzrokuje neke uzastopne m-grame teksta:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Ako je ovo broj pojavljivanja m-grama ai1ai2…cilj u određenom tekstu T, a L je ukupan broj m-grama koje je analizirao istraživač, tada je moguće empirijski utvrditi da je za dovoljno veliki L, frekvencije za takav m-gram će se malo razlikovati jedna od druge.

analiza frekvencija
analiza frekvencija

Slova ruske abecede koja se često pojavljuju

Ali vremensko-frekvencijska analiza, uprkos sličnom nazivu, nema nikakve veze s temom našeg razgovora. Ova vrsta analize se vrši zasignale sa slabo vidljivih radarskih stanica koristeći specijalnu wavelet transformaciju.

Sada se vratimo na glavnu temu. Kada provodite analizu frekvencije, možete saznati koja se slova ruske abecede najčešće nalaze u prilično obimnim tekstovima (postotak od 0,062 do 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Uvedeno je čak i posebno mnemoničko pravilo koje pomaže u učenju najčešćih slova ruske abecede. Da biste to učinili, dovoljno je zapamtiti samo jednu riječ - "sijenik".

U opštim slučajevima, učestalost upotrebe slova u procentima je jednostavno postavljena: stručnjak broji koliko se puta slovo pojavljuje u tekstu, a zatim deli rezultujuću vrednost sa ukupnim brojem znakova u tekstu. A da biste ovu vrijednost izrazili kao postotak, dovoljno je pomnožiti je sa 100.

Važno je uzeti u obzir da će frekvencija zavisiti ne samo od jačine teksta, već i od njegove prirode. Na primjer, u tehničkim izvorima slovo "F" se pojavljuje mnogo češće nego u fikciji. Stoga, za objektivne rezultate, specijalist mora ukucati tekstove različite prirode i stila za istraživanje.

programi za analizu frekvencije teksta
programi za analizu frekvencije teksta

Bi-, tri-, četiri grama

U smislenim tekstovima možete pronaći i najčešće (odnosno, najčešćeponovljene) kombinacije dvaju ili više slova. Stručnjaci su takođe sastavili nekoliko tabela, koje ukazuju na učestalost sličnih digrama različitih abeceda.

Što se tiče ruskog, analiza frekvencija sistema obimnih smislenih tekstova omogućila je utvrđivanje najčešćih bigrama i trigrama:

  • EN.
  • ST.
  • ALI.
  • NE.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NOVO
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Preferirani međusobni odnosi slova

I ovo nisu sve mogućnosti koje analiza frekvencija može pružiti istraživačima teksta. Sistematizacijom informacija iz sličnih tabela bigrama i trigrama moguće je izdvojiti podatke o najčešćim kombinacijama slova. Ili, drugim riječima, njihove željene međusobne veze.

Ovako opsežno istraživanje već su sproveli stručnjaci. Njegov rezultat je bila tabela u kojoj su, uz svako slovo abecede, naznačeni njegovi susjedi. Štaviše, oni likovi koji se često nalaze i neposredno prije i nakon njega. Slova u tabeli nisu slučajno napisana. Bliže simbolu, naznačeni su najčešći susjedi, dalje - rjeđi.

Razmotrite primjere:

  • Slovo "A". Ovdje se razlikuju sljedeće preferirane veze: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Odavde vidimo da najčešće ispred "A" u tekstovima stoji "H" ("NA"). A iza "A" najčešće u tekstovima na ruskom možemo sresti "L"("AL").
  • Slovo "M". Stručnjaci su identifikovali takve preferirane veze: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Slovo "b". Preferirane veze su sljedeće: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Slovo "Sh". Preferirane veze: "e-b-a-i-u-Sch-e-i-a".
  • Slovo "P". Preferirane veze sa ovim simbolom ruskog alfabeta: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
vremensko-frekvencijsku analizu
vremensko-frekvencijsku analizu

Šta definiše analizu?

Moderni frekventni programi za analizu teksta pomažu u proučavanju velikih količina širokog spektra članaka, eseja, pasusa itd. Sljedeće informacije se pružaju istraživaču kao standard:

  • Ukupan broj znakova u tekstu.
  • Broj prostora koje koristi autor.
  • Broj cifara.
  • Informacije o korištenim znakovima interpunkcije - tačkama, zarezima, itd.
  • Broj slova u svakom od dostupnih alfabeta - ćirilica, latinica, itd.
  • Informacija o učestalosti upotrebe svakog slova i simbola u tekstu - broj spominjanja i postotak u odnosu na cijeli tekst.

Borba protiv preoptimizacije i prezasićenosti

Zašto se radi analiza frekvencije teksta? Da li je to samo u svrhu radoznalosti - da se ustanovi koji se likovi u pisanom tekstu često susreću? Ne, glavna primjena analize je praktična i leži negdje drugdje.

N-grami uključuju ne samo stabilne bigrame i trigrame. Na istokategorije uključuju ključne riječi (tagove), kolokacije. To jest, stabilne kombinacije koje se sastoje od dvije ili više riječi. Odlikuje ih činjenica da se takve kompozicije pojavljuju zajedno u tekstu i da istovremeno nose određeno semantičko opterećenje.

Ovo ide na ruku beskrupuloznim SEO stručnjacima. U svom radu ponekad zloupotrebljavaju ponavljanje oznaka i ključnih riječi u tekstu kako bi umjetno povećali relevantnost određene web stranice. Pokušavaju prevariti sistem takvim "trikom": pretvaranjem prirodne kombinacije sa uobičajenom kombinacijom riječi, tradicionalnom za ruski jezik ("kupite kaput od nerca") u nedosljednu. Odnosno, dobijeno preuređivanjem riječi u takvom prirodnom N-gramu ("kupite kaput od nerca").

Ali danas su algoritmi za pretragu naučili da detektuju preoptimizaciju jednako efikasno kao i prekomernu neželjenu poštu - prezasićenost teksta ključnim rečima, oznakama koje utiču na rangiranje rezultata na stranici za pretragu. Preoptimizirane stranice sada su, naprotiv, niže rangirane prema upitu korisnika. I sami ljudi nisu skloni čitanju besmislenog, prezasićenog tagovima teksta, preferirajući korisne informacije na drugom izvoru.

metoda frekvencijske analize
metoda frekvencijske analize

Pomoć privatne analize za SEO stručnjake

Tako, savremeni filteri teksta pretraživača danas daju prednost onim internet stranicama na kojima su informacije ne samo lake za čitanje, već i korisne posetiocima. Da bi optimizirali svoj rad za nove standarde, SEO stručnjacii okreni se frekventnoj analizi teksta. Mnogi popularni servisi to pružaju danas.

Analiza učestalosti pomaže u pregledu teksta koji se priprema za objavljivanje radi informativnosti. Uklonite nepotrebnu suvišnost oznaka i ključnih fraza. Takođe vam omogućava da skrenete pažnju autora na neprirodne kombinacije reči koje izazivaju sumnju u tekstualnim filterima pretraživača.

analiza frekvencijskog odziva
analiza frekvencijskog odziva

Analiza frekvencije teksta na taj način pomaže u određivanju učestalosti spominjanja određenog karaktera u izvoru. Metoda se danas koristi za procjenu preopterećenosti teksta oznakama, neprirodnim permutacijama riječi.

Preporučuje se: